关于 DeepSeek 和出口管制
作者: Dario Amodei
翻译: Claude 3.5 Sonnet
几周前,我提出了加强美国对华芯片出口管制的理由。此后,中国人工智能公司 DeepSeek 以更低的成本在某些方面接近了美国前沿 AI 模型的性能水平。
在这里,我不会关注 DeepSeek 是否对 Anthropic 等美国 AI 公司构成威胁(尽管我确实认为很多关于他们威胁美国 AI 领导地位的说法被严重夸大了)。相反,我将着重讨论 DeepSeek 的发布是否削弱了这些芯片出口管制政策的理由。我认为并没有。事实上,我认为这使得出口管制政策比一周前更加具有存在性意义。
出口管制具有重要目的:保持民主国家在 AI 发展的前沿地位。需要明确的是,这并不是规避美中之间的竞争。最终,如果我们想要获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但在不必要的情况下,我们不应该给中国共产党带来技术优势。
AI 发展的三个动态
在阐述我的政策论点之前,我将描述三个需要理解的 AI 系统基本动态:
1. Scaling Law
AI 的一个特性是 —— 我和我的联合创始人在 OpenAI 工作时是最早记录这一点的人之一 —— 在其他条件相同的情况下,扩大 AI 系统的训练规模会在一系列认知任务上带来平稳的整体性能提升。例如:
- 价值 100 万美元的模型可能解决 20% 的重要编程任务
- 1000 万美元的可能解决 40%
- 1 亿美元的可能解决 60%
这些差异在实践中往往具有重大影响 —— 再增加 10 倍可能相当于本科生和博士生技能水平之间的差距 —— 因此公司正在大力投资训练这些模型。
2. 曲线移动
该领域不断产生大大小小的创新,使事物变得更有效或更高效:可能是模型架构的改进(对当今所有模型使用的基本 Transformer 架构的调整),或者仅仅是在底层硬件上更高效地运行模型的方法。新一代硬件也有同样的效果。这通常会移动曲线:如果创新带来 2 倍的”计算倍增器”(compute multiplier, CM),那么以 500 万美元而不是 1000 万美元就能在编程任务上达到 40% 的表现;或者以 5000 万美元而不是 1 亿美元达到 60% 的表现,等等。每家前沿 AI 公司都经常发现许多这样的 CM:通常是小型的(1.2倍),有时是中等规模的(2倍),偶尔会有非常大的(~10倍)。由于拥有更智能系统的价值如此之高,这种曲线的移动通常导致公司在训练模型上花费更多而不是更少:成本效率的提升完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被”先是昂贵,然后变得更便宜”的想法所吸引 —— 仿佛 AI 是一个质量恒定的单一事物,当它变得更便宜时,我们就会使用更少的芯片来训练它。但重要的是扩展曲线:当它移动时,我们只是更快地遍历它,因为曲线终点的价值如此之高。2020 年,我的团队发表了一篇论文,认为算法进步带来的曲线移动约为每年 1.68 倍。这个速度可能已经显著加快;它也没有考虑效率和硬件因素。我猜测今天这个数字可能是每年约 4 倍。另一个估计在这里。训练曲线的移动也会移动推理曲线,因此在保持模型质量不变的情况下,多年来价格一直在大幅下降。例如,比原始 GPT-4 晚 15 个月发布的 Claude 3.5 Sonnet 在几乎所有基准测试中都超过了 GPT-4,同时 API 价格降低了约 10 倍。
3. 范式转移
偶尔,被扩展的基础事物会稍有改变,或者训练过程中会添加新的扩展类型。从 2020 年到 2023 年,主要扩展的是预训练模型:在互联网文本上进行大量训练,并在顶部进行少量其他训练的模型。在 2024 年,使用强化学习(RL)来训练模型生成思维链条已成为扩展的新焦点。Anthropic、DeepSeek 和许多其他公司(可能最值得注意的是在 9 月发布 o1-preview 模型的 OpenAI)发现,这种训练大大提高了某些特定的、客观可测量的任务(如数学、编程竞赛)以及类似这些任务的推理能力。这种新范式包括从普通类型的预训练模型开始,然后在第二阶段使用 RL 添加推理技能。重要的是,因为这种 RL 是新的,我们仍然处于扩展曲线(Scaling Curve)的早期:所有参与者在第二阶段 RL 上的支出都很小。花费 100 万美元而不是 10 万美元就足以获得巨大的收益。公司现在正在迅速将第二阶段扩展到数亿和数十亿,但重要的是要理解我们正处于一个独特的”交叉点”,在这里有一个强大的新范式,它处于扩展曲线的早期,因此可以快速取得巨大进展。
DeepSeek 的模型
上述三个动态可以帮助我们理解 DeepSeek 最近的发布。大约一个月前,DeepSeek 发布了两个重要模型:
- DeepSeek-V3 - 一个纯预训练模型(第一阶段)
- R1 - 增加了第二阶段训练的模型
DeepSeek-V3 的创新
DeepSeek-V3 实际上才是真正的创新,也是一个月前就应该引起人们注意的地方。其主要创新点包括:
- 工程效率方面的重大突破
- “KV Cache”管理的创新改进
- 在”Mixture of Experts”方法上的深入探索
然而,重要的是要仔细观察:
DeepSeek 并不是”用 600 万美元做到了美国 AI 公司花费数十亿美元才能做到的事”。我只能代表 Anthropic 说话,但 Claude 3.5 Sonnet 是一个中等规模的模型,训练成本为几千万美元(我不会给出具体数字)。此外,3.5 Sonnet 的训练方式并不涉及更大或更昂贵的模型(与一些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,而 DeepSeek 的模型是在 11 月/12 月训练的,而 Sonnet 在许多内部和外部评估中仍然明显领先。因此,我认为一个公平的说法是”DeepSeek 以更低的成本(但远没有人们所说的那么大的差距)生产出了一个接近 7-10 个月前美国模型性能的模型”。
如果成本曲线下降的历史趋势是每年约 4 倍,这意味着在正常业务过程中 —— 在 2023 年和 2024 年发生的正常历史成本下降趋势中 —— 我们预计现在会出现一个比 3.5 Sonnet/GPT-4 便宜 3-4 倍的模型。由于 DeepSeek-V3 比这些美国前沿模型差 —— 让我们说在扩展曲线上差约 2 倍,我认为这对 DeepSeek-V3 来说已经很宽容了 —— 这意味着如果 DeepSeek-V3 的训练成本比一年前开发的当前美国模型低约 8 倍,那将是完全正常的,完全”符合趋势”的。我不会给出具体数字,但从前面的要点可以清楚地看出,即使你按照表面价值接受 DeepSeek 的训练成本,他们充其量只是符合趋势,可能甚至还达不到。
例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 的推理价格差异(10倍)还要小,而且 3.5 Sonnet 是一个比 GPT-4 更好的模型。所有这些都是说,DeepSeek-V3 并不是一个独特的突破或从根本上改变 LLM 经济学的东西;它只是持续成本降低曲线上的一个预期点。这次不同的是,第一个展示预期成本降低的公司是中国公司。这种情况以前从未发生过,具有地缘政治意义。然而,美国公司很快就会跟进 —— 他们不会通过复制 DeepSeek 来做到这一点,而是因为他们也在实现通常的成本降低趋势。
DeepSeek 和美国 AI 公司都拥有比用于训练其主打模型更多的资金和芯片。额外的芯片用于研发模型背后的想法,有时用于训练尚未准备好的更大模型(或需要多次尝试才能做对的模型)。据报道 —— 我们不能确定这是真的 —— DeepSeek 实际上拥有 50,000 个 Hopper 代芯片,我猜这大约是主要美国 AI 公司的 2-3 倍以内(例如,比 xAI 的”Colossus”集群少 2-3 倍)。这 50,000 个 Hopper 芯片的成本在 10 亿美元左右。因此,DeepSeek 作为一家公司的总支出(区别于训练单个模型的支出)与美国 AI 实验室并没有太大差异。
值得注意的是,”扩展曲线”分析有点过于简化,因为模型有所不同,有不同的优势和劣势;扩展曲线数字是一个忽略了很多细节的粗略平均值。我只能谈论 Anthropic 的模型,但如我上面暗示的,Claude 在编程和与人交互的设计风格方面非常出色(许多人用它来获取个人建议或支持)。在这些和一些额外的任务上,与 DeepSeek 根本没有可比性。这些因素并不出现在扩展数字中。
R1,也就是上周发布并引发公众大量关注的模型(包括导致英伟达股价下跌约 17%),从创新或工程角度来看,远不如 V3 有趣。它增加了第二阶段的训练 —— 强化学习,如前一节#3中所述 —— 基本上复制了 OpenAI 在 o1 上所做的工作(他们似乎在类似规模上有类似的结果)。然而,因为我们处于扩展曲线的早期,只要从一个强大的预训练模型开始,几家公司就有可能生产出这种类型的模型。在有了 V3 的基础上生产 R1 可能很便宜。因此,我们正处于一个有趣的”交叉点”,在这里暂时几家公司都可以生产出良好的推理模型。随着每个人在这些模型上进一步上移扩展曲线,这种情况很快就会不再存在。
出口管制的影响
基于以上分析,关于出口管制有以下几个关键观点:
持续趋势:
- 公司在训练强大的 AI 模型上投入持续增加
- 训练成本虽在下降,但节省的成本立即被用于训练更智能的模型
未来展望(2026-2027):
- 制造超越人类智能的 AI 将需要:
- 数百万个芯片
- 数百亿美元投资
- 制造超越人类智能的 AI 将需要:
两种可能的世界:
- 两极世界:美国和中国都拥有强大的 AI 模型
- 单极世界:只有美国及其盟友拥有这些模型
执行良好的出口管制是唯一能阻止中国获得数百万芯片的方法,因此是决定我们是最终进入单极还是两极世界的最重要因素。
DeepSeek 的表现并不意味着出口管制失败了。如上所述,DeepSeek 拥有中等到大量的芯片,所以他们能够开发并训练出一个强大的模型并不令人惊讶。他们的资源限制并不比美国 AI 公司严重多少,出口管制也不是促使他们”创新”的主要因素。他们只是非常有才华的工程师,展示了为什么中国是美国的严重竞争对手。
DeepSeek 也没有表明中国总是能通过走私获得所需的芯片,或者管控总是存在漏洞。我不认为出口管制的设计初衷就是要阻止中国获得几万个芯片。10 亿美元的经济活动可以被隐藏,但要隐藏 1000 亿美元甚至 100 亿美元是很难的。一百万个芯片在物理上也可能很难走私。观察 DeepSeek 目前据报道拥有的芯片也很有启发性。根据 SemiAnalysis 的报道,这是 H100、H800 和 H20 的混合,总计 5 万个。H100 自发布以来就被出口管制所禁止,所以如果 DeepSeek 有任何 H100,它们一定是走私的(注意英伟达已经声明 DeepSeek 的进展”完全符合出口管制”)。H800 在 2022 年初始轮出口管制下是允许的,但在 2023 年 10 月管制更新时被禁止,所以这些可能是在禁令前运送的。H20 对训练效率较低,对采样效率较高 —— 目前仍然允许,尽管我认为应该禁止。所有这些都表明,DeepSeek 的 AI 芯片队伍中有相当一部分由尚未被禁止(但应该被禁止)的芯片组成;在被禁止前运送的芯片;以及一些看起来很可能是走私的芯片。这表明出口管制实际上正在发挥作用并在适应:漏洞正在被堵住;否则,他们很可能拥有一整套顶级的 H100。如果我们能够足够快地堵住这些漏洞,我们可能能够阻止中国获得数百万芯片,增加美国领先的单极世界的可能性。
考虑到我对出口管制和美国国家安全的关注,我想在一点上表明立场。我不认为 DeepSeek 本身是对手,重点也不是要特别针对他们。从他们接受的采访来看,他们似乎是聪明、好奇的研究人员,只想制造有用的技术。
但他们受制于一个专制政府,这个政府侵犯人权,在世界舞台上表现咄咄逼人,如果他们能在 AI 方面与美国匹敌,这些行为会更加肆无忌惮。出口管制是防止这种情况的最有力工具之一,而认为技术变得更强大、投入产出比更高就是取消出口管制的理由,这完全说不通。