击壤而歌

Wukong: 一种推荐系统的 Scaling Law 方案

原文: Wukong: Towards a Scaling Law for Large-Scale Recommendation 网络结构参考 LLM 领域 Transformer 的结构设计，对推荐场景进行了适配。网络结构如下:

2025-02-12 推荐系统， ScalingLaw

Cerebras Systems：颠覆AI芯片规则的“晶圆级革命者”

一、公司图谱：硅谷硬核派的“晶圆狂想”Cerebras Systems成立于2015年，由硅谷半导体行业资深团队创立，致力于突破传统芯片设计的物理极限。其核心理念是“以整片晶圆为画布”，将传统切割成数百个小芯片的12英寸晶圆直接制成单一巨芯

2025-02-11 AI ， Cerebras ， GPU

大语言模型推理加速之 KV Cache

大模型推理过程大模型的推理可以分为两个阶段: Prefill: 基于全部Prompt进行前向推理，得到第一个token。计算密集。 Decoding: 通过自回归方式，递归输出新的token。内存密集。由于 Prefill与Dec

2025-02-09 LLM ， KVCache

大语言模型原理之 DPO 算法

2023年5月，由Standford在论文 Direct Preference Optimization: Your Language Model is Secretly a Reward Model 中提出。作为Reinforceme

2025-02-07 DPO ， RLHF ， LLM ， Direct Preference Optimization

Anthropic CEO 谈DeepSeek和出口管制

关于 DeepSeek 和出口管制作者: Dario Amodei翻译: Claude 3.5 Sonnet 几周前，我提出了加强美国对华芯片出口管制的理由。此后，中国人工智能公司 DeepSeek 以更低的成本在某些方面接近了美国前沿 A

2025-01-29 DeepSeek ， Anthropic ， Dario Amodei ， Claude ， Export Control

Box CEO：DeepSeek突破将如何重塑AI产业经济格局

DeepSeek在理解人工智能时代软件经济学未来方面取得了非常重要的突破。几年来，尤其是在公开市场投资者中，一直存在一个悬而未决的问题，即随着时间的推移，更多价值是否会流向人工智能模型本身，还是流向人工智能的应用层。饼图的具体细节并不重要，

2025-01-28 DeepSeek ， AI ， Aaron Levie

DeepSeek引爆AI圈：各界大咖如何看待这个突破性时刻

Sam AltmanCEO of OpenAIdeepseek’s r1 is an impressive model, particularly around what they’re able to deliver for the pr

2025-01-28 DeepSeek ， AI

信任是语言和文明的关键。有组织的谎言会摧毁文明

作者：穆罕默德・库尔特卡亚语言一直是所有文明（无论是古代还是现代）的关键。任何研究者都会告诉你，信任是语言起源的关键。没有信任，就不会有语言，进而也就不会有文明。因此，影响整个社会的有组织的谎言会摧毁文明，正如我们在新保守主义者

2025-01-28 DeepSeek ， AI ， Trust ， Civilization

关于 DeepSeek-R1 的一些有趣实验和探索

RAT: 思考与响应的解耦RAT(Retrieval Augmented Thinking) 是由EverArt创始人 Pietro Schirano提出的一种混合LLM生成范式，其主要思想是利用DeepSeek-R1的推理能力来指导其他

2025-01-25 DeepSeek-R1 ， Claude Sonnet ， Aider ， PPFO ， RAT ， Cline

RAG中的多向量检索实践

在之前的文章中，我们介绍了RAG中常见的文档分块策略。这些分块策略对于文档中的任何信息都只有一个与之对应的向量(文档重叠的部分除外)。在实际应用场景中，我们可以通过为每一个文档块关联多个向量来进一步提升检索的效果。创建多向量有多

2025-01-18 RAG ， Retrieval Augmented Generation ， Multi-Vector

下一页