首页 > 资讯

又一颗芯片, 被英伟达打败

近日特斯拉解散Dojo团队、负责人离职的消息甚嚣尘上，也让观众们唏嘘不已。近几年来，对于一众摊开身子去做训练芯片的大公司也好，初创企业也好，都是血淋淋的教训：Graphcore一度号称“IPU对抗GPU”，最终被软银收购，结束独立冲锋；英特尔/Habana（Gaudi）路线多、生态分裂，近来逐步并入GPU/FalconShores体系，淡化独立加速器路线；Cerebras坚持晶圆级（WSE）差异化，产品与订单在增长，但商业化和生态仍远未与CUDA可比——这是“特种装备”而非“通用平台”。

自研训练芯片这条道路，对绝大多数公司并不可行，能成的是极少数例外，不是可复制的范式。英伟达又赢了。

Dojo的“高开低走”

Dojo是特斯拉为“现实世界场景”模型训练而自研的数据中心级训练系统。2019年4月，马斯克在“Autonomy投资者日”首次抛出Dojo概念；2020年8月，他称受限于供电与散热，系统“还需大约一年”才能就绪。2021年8月的AIDay上，特斯拉正式发布D1与TrainingTile，并同步公开CFloat8/16白皮书，给外界描绘了一条“自研算力+自研数值格式”的硬核路线。

在2022年的AIDay上，特斯拉给出Dojo的系统化扩展路径：从自研D1芯片→TrainingTile（5×5）→SystemTray→Cabinet→ExaPOD，目标是实现“超1ExaFLOP级”的ML计算能力。

D1：台积电7nm，约500亿晶体管，645mm²，354个计算核心；单芯BF16/CFP8≈362TFLOPS。

TrainingTile：25颗D1组成一块水冷Tile，BF16≈9PFLOPS，以高带宽片间互联为卖点。

市场对Dojo的预期曾被推到高位——2023年，摩根士丹利曾估算Dojo可能为特斯拉带来约5000亿美元的增量价值。直到2025年Q2财报会上，马斯克仍表示Dojo2的目标是对标约10万台H100等价物。但现实层面，项目最终叫停。

期间多位核心技术负责人相继离开：2018年，最初受聘领导特斯拉芯片工作的JimKeller离任；随后GaneshVenkataramanan接棒，2023年离开并创立DensityAI；近年持续主导芯片项目的PeterBannon亦已离职，Dojo项目随之收尾。

更指向性的证据来自并行路线的推进。早在2024年Q4，特斯拉在奥斯汀上线“Cortex”训练集群（对外口径为约5万张H100），并在Q2’25股东信里披露新增1.6万H200，使整体规模约等于6.7万张H100。这说明Dojo未能成为主力产线，特斯拉更多转向“采购成熟GPU平台”。事实也证明，买卡比造卡更快：除特斯拉外，马斯克体系的xAI/“Colossus”同样大规模采用英伟达GPU，并配套Spectrum-X以太网做超大规模组网——连网络栈都被英伟达打包交付。

亡羊补牢，为时未晚

如今，特斯拉及时扭转局面。

训练侧：外采为主。特斯拉把主力训练转向可即刻部署、可线性扩容、生态成熟的英伟达（并补充部分AMD），把“模型训练周转率（Time-to-Train）”拉回商业节奏。

推理侧：自研为主。与三星敲定165亿美元长期代工协议（AI6），将车载/机器人/边缘推理算力自控在手，贴近产品、风险更低、迭代更快。

组织侧：约20名原训练团队成员加入DensityAI，其余并入公司数据中心/算力工程，避免在尚未收敛的训练芯片路线继续“烧时间”。

这套组合拳很务实：训练端“买成熟产线”，推理端“做自己最懂的场景”，既把Time-to-Train和Time-to-Market拉回到商业节奏内，也避免在生态战里被迫充当“软件平台提供商”。

Dojo项目的倒闭可能对特斯拉来说并不是一个很大的损失。8月8日，马斯克在社交平台X上回应amit网友称：“没有必要同时扩展两条截然不同的训练芯片路线；TeslaAI5、AI6以及后续芯片在推理方面将非常出色，至少在训练方面也相当不错。所有精力都集中在这上面。”

他还进一步补充道，“在超算集群中，无论是用于推理还是训练，将许多AI5/AI6芯片放在一块板上是合乎情理的，这仅仅是为了将网络布线的复杂性和成本降低几个数量级。我想，这可以称之为Dojo3。”“AI4和AI5之间在实际性能上的差异，远超我所知的所有芯片版本。它真的很出色。”

为什么“自研训练芯片”这么难？

1）生态与软件壁垒

训练芯片不是单芯片竞赛，框架适配、编译器、内核库、并行策略、调优工具链才是吞时间的黑洞。英伟达把CUDA/cuDNN/各类并行库打磨了十几年，后来者很难追平这个“隐形工程量”。业界多家厂商在软件成熟度上“掉链子”，训练端难以稳定释放算力密度。

2）系统工程与供应链

先进封装（CoWoS/SoIC）、HBM供给、机柜/供配电/散热、互联拓扑、集群调度、可靠性工程，任何一环不够强，TCO就会被市售GPU平台反杀。尤其是先进封装和HBM这两块，2025年NVIDIA至少锁定台积电CoWoS-L七成产能的报道频出，HBM市场由SKhynix/三星/美光三强主导，且HBM3E→HBM4的节奏被各家紧紧盯住。没有这些供给保障，自研方案即便流片成功，也会在封装与内存上“卡脖子”。

3）需求与现金流节奏

自研要靠稳定、可预期且超大规模的自用训练需求摊薄巨额前期投入。除谷歌（TPU）和AWS（Trainium）这类云巨头，鲜有人能把“芯片—集群—云服务”联动成正循环。

Meta训练芯也在逐步尝试，今年3月份据路透社的报道，Meta正在测试首款AI训练芯片，消息人士称，测试部署是在Meta完成芯片的首次“流片”后开始的。这款芯片是该公司元训练和推理加速器(MTIA)系列的最新产品。不过该项目多年来发展一直不太顺利，甚至一度在类似的开发阶段放弃一款芯片。目前Meta的MITA芯片仍以推理为主，用于确定哪些内容出现在Facebook和Instagram新闻推送中的推荐系统。

Meta高管表示，他们希望到2026年开始使用自己的芯片进行训练，或者进行计算密集型过程，为AI系统提供大量数据以“教”它如何执行。与推理芯片一样，训练芯片的目标是从推荐系统开始，然后将其用于聊天机器人MetaAI等生成式人工智能产品。

4）机会成本

AI时代下，英伟达和AMD两大AI芯片玩家均已代际升级以季度为单位推进，自研芯片的代次跨度很容易一上板就过时，落地即落后。

在Llama2-70B-LoRA等平台（8GPU）微调工作负载中，InstinctMI325X的性能比InstinctMI300X提升高达30%

现在AMD也补上了“可用的第二供应商”，6月份，AMD发布了其首次提交MLPerf训练的结果，AMD的训练成绩也已经很能打（MLPerf上与英伟达可比/部分领先的负载出现了）。在AMDMLPerfTrainingv5.0测试中，InstinctMI325X平台在微调Llama2-70B-LoRA（一种广泛用于定制大型语言模型的工作负载）时，性能比NVIDIAH200平台高出高达8%。

在这种情况下，再走一条第三条自研路，边际价值更小、失败成本更高。

Dojo的叫停不等于“自研训练芯片永无出路”。云巨头例外依然成立：GoogleTPU、AWSTrainium能跑通，是因为它们拥有超大、稳定的自用训练需求+云服务生态+算法/框架协同，能把“芯-机-云-软件”串成正循环。但对车企/应用公司而言，缺生态+缺供给链+节奏跟不上，机会成本才是终极杀手。

英伟达赢在哪里？

英伟达的胜利是系统性胜利。不只是GPU领先，而是从硅到机架到网络到软件的全栈交付能力：

硬件层：GPU+NVLink/NVSwitch+高带宽内存+机架级整机；

网络层：InfiniBand与Spectrum-X以太网两套方案，覆盖不同客户偏好与成本模型；

软件层：CUDA体系与全栈库/工具，保障“可用算力/周”；

交付层：从整柜到整机房的“交钥匙工程”，缩短客户的Time-to-Train。

一个典型的案例：GB200NVL72——72张BlackwellGPU+36颗GraceCPU的液冷整柜，一个机柜内构成72-GPU的NVLink统一域，对外就像一块超大加速器；第五代NVLink/NVSwitch还能把多个机柜无阻塞拼合到576GPU。这不是“堆卡”，而是把互联、内存、软件、上电与运维做成可交付的“AI工厂”

对于去自研AI训练芯片的厂商而言，很多时候，他们并不是技术不可行，而是时间、资金与生态的综合算术不合。当你在流血做“芯—板—机—集群—软件—网络”的全栈集成时，英伟达已经把GPU+NVLink/NVSwitch/Spectrum-X+CUDA/cuDNN+DGX/GB系统一整套“AI工厂”卖给了你的对手与合作伙伴，“买英伟达=立刻可用的AI工厂”

英伟达在机架级产品（如GB系列）与网络（Spectrum-X/InfiniBand之外的以太网解法）上持续前移，把“可用算力/周”最大化。2024年10月28日，NVIDIA利用NVIDIASpectrum-X以太网网络平台，实现了100,000个NVIDIAHopperGPU相连，这就是位于田纳西州孟菲斯的xAIColossus超级计算机集群，其主要用于训练马斯克的Grok大模型。xAI和NVIDIA仅用122天就建成了配套设施和最先进的超级计算机，而这种规模的系统通常需要数月甚至数年的时间。从第一个机架滚到地面到训练开始，整个过程仅用了19天。

英伟达的“系统+软件+生态+交付能力”的复合护城河，正在把每一家“自研训练芯片”的商业试验拖回到现实。

对于英伟达而言，如今最大的变量和对手是AMD，AMD在性价比、特定工作负载（如微调）上持续追近，会压缩自研路线的“理论窗口期”，但短期难撼动英伟达的系统与软件领先。

接下来很长一段时间，“训练自研，推理解耦”将成为非云巨头的主流策略：训练上公版平台，推理做自家SoC/ASIC，把能沉淀差异化的算力放在端侧/产品内。

结语

特斯拉关掉Dojo，不是输给了一块更强的芯片，而是输给了一个更强的“产业系统”。自研训练芯片这条路，对绝大多数公司而言不具可复制性；而在“买卡+更快上线+产品侧自控推理”的组合里，英伟达再次赢下了时间、生态与现金流的三重赛点。

英伟达的再次胜利，是对整个行业的一次提醒：在AI基建时代，速度与生态，就是一切。