TPU突围, 谷歌积极推销自研芯片
本文由半导体产业纵横(ID:ICVIEWS)综合
谷歌积极向外部数据中心推销部署自研芯片。
据报道,谷歌近来接触了一批主要购买英伟达芯片的小型云服务供应商,商谈在他们的数据中心里同时部署谷歌芯片。知情人士称,谷歌已经有所进展,与总部位于伦敦的Fluidstack达成协议,在其纽约的一处数据中心托管谷歌TPU。
谷歌也曾试接触过其他云服务商,包括有“英伟达亲儿子”之称的CoreWeave。谷歌的谈判表明其正试图接近那些“背靠英伟达扶持”的新兴云服务供应商。与谷歌、亚马逊这样的大型云服务公司不同,这些新兴企业几乎只使用英伟达的芯片,而且更愿意采购多种英伟达产品。英伟达已向其中的许多公司注资,并优先供应眼下最抢手的芯片。
据悉,谷歌谈妥Fluidstack的方式很简单粗暴——如果Fluidstack无法承担建造纽约数据中心的费用,谷歌同意作为“后备担保”来介入,并提供最高32亿美元的资金支持。
目前尚不清楚为何谷歌积极向外部数据中心推销自研芯片。要知道在此之前,谷歌基本不对外出售自研TPU。Capvision此前数据显示,谷歌TPU70%-80%的算力用于内部业务场景使用,剩余20%-30%以自建租赁方式供外使用。
有分析认为,或许是由于谷歌自建数据中心速度难以追上芯片需求增长,或可能是希望通过其他云服务商为自家TPU寻找更多新客户。如果是第二种原因,那么谷歌无异于更直接地在与英伟达展开竞争。分析指出,第二种做法类似于云服务商租赁英伟达GPU的模式,英伟达主要是向这些云服务商销售芯片,而谷歌扩大部署TPU,自然会导致这些数据中心中的英伟达GPU数量减少。
谷歌下代TPU性能暴增16倍
近日,谷歌详细披露第七代TPU架构“Ironwood”超级计算平台,主要聚焦在单个Superpod的硬件构成与架构设计。
据介绍,单个Ironwood Superpod集成9216枚芯片,每片配备192GB、带宽7.4TB/s的高带宽存储,峰值算力高达 4614TFLOPs。相较之下,2022年发布的TPU v4集成4096枚芯片、配备32GB HBM,峰值算力275 TFLOPs,而2023年发布的TPU v5p集成8960枚芯片,配备95GB HBM,峰值算力459 TFLOPs,这意味着Ironwood Superpod单芯片性能较TPU v4提升超过16倍。
在物理布局上,Ironwood沿用过去三代的3D Torus(立方环网)拓扑,每个逻辑单元为4×4×4节点阵列,即64芯片,封装于单个机架。而一个Superpod包含144个机架,还配备光学交换机机箱以实现跨模块互连,以及用于液冷的冷却分配单元(CBU)机架,互连方面为提高灵活性与可扩展性,采用PCB走线、铜缆和光纤的混合方式。
在机架设计上,顶部设有泄漏检测盘以监控液冷系统,下方是供电模块,具备两路电源域,将416V交流电经整流转换为直流电。整套系统支持液冷散热,满载运行功率可超过100kW。
谷歌TPU需求正在上升
据报道,谷歌的第六代Trillium TPU芯片自去年12月向外部客户开放后需求强劲。分析师预计,第七代Ironwood TPU的需求将显著上升。谷歌的TPU芯片算力最高可达42.5 exaflops(百亿亿次浮点运算),并已大幅提升高带宽内存容量。这些芯片成本效率也显著提升,这是吸引更多前沿实验室关注的主要原因之一。
初创公司Anthropic此前虽在小规模上使用TPU,但分析师指出,该公司近期正在招聘TPU内核工程师,这可能意味着他们正考虑从使用Amazon Web Services提供的Trainium芯片转向TPU。Trainium是亚马逊为AI训练设计的芯片,该公司已对Anthropic投资80亿美元。
分析师还指出,马斯克的xAI公司也对购买TPU表现出兴趣,部分原因在于今年“JAX-TPU工具支持的显著改进”。JAX是谷歌开发的一个高性能计算Python库,能够让程序在TPU上高效运行。直到最近,JAX生态系统还限制了TPU在Google外部大规模部署的可能性。
今年6月,OpenAI启动了一项重要战略调整:将租用谷歌云平台TPU,为其核心产品ChatGPT提供关键运算支持。这是OpenAI首次在核心业务场景中规模化引入非英伟达芯片,也标志着打破了英伟达长期以来的垄断地位。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!