英伟达押注MLCP技术, 单价为现有散热方案3-5倍
目前已有公司完成向英伟达送样MLCP。
随着人工智能芯片性能不断提升,散热问题成为行业面临的关键挑战之一。据报道,英伟达正积极联合上游供应链,研发一种名为 MLCP(微通道水冷板)的新型水冷散热组件,以应对未来 GPU 芯片日益增长的热管理需求。
报道提到,英伟达下一代名为“Rubin”的 GPU 将采用双芯片封装设计,单个设备的功耗预计将突破 2000W。虽然这种结构带来了更大的散热面积,但对冷却系统的效率也提出了更高要求,传统水冷方案已难以满足其散热需求。
目前主流水冷板中的微通道尺寸一般在 0.1mm 至数毫米之间。而 MLCP 技术通过在芯片或封装表面进行蚀刻工艺,可将水道尺寸缩小至微米级别,从而显著提升热传导效率。此外,该技术还将均热板、水冷板、封装顶盖与芯片裸晶进行高度集成,实现更紧凑和高效的散热结构。
值得一提的是,MLCP 的制造成本显著高于传统水冷板,预计单价可达后者的3到5倍,相应地也具备更高的毛利率。然而,由于涉及复杂的流体力学与气泡动力学控制,并存在较高的液体泄漏风险,该技术的商业化进程仍需克服多项技术难题,全面成熟尚需时日。
业内人士分析称,若GPU全面转向MLCP方案,制造成本将比现行Blackwell盖板高出5至7倍,市场预期MLCP将成为散热重组的“分水岭”。据悉,目前已有公司完成向英伟达送样MLCP。不过供应链人士坦言,MLCP并非AI服务器唯一解法,还有多个其他新散热方案在并行验证。
Rubin CPX GPU的散热方案
不久前,英伟达发布了全新一代Rubin CPX GPU,这是一款专为海量上下文处理设计的革命性产品,能够处理百万token级别的软件编码和生成视频应用。
这款新型GPU预计于2026年底上市,将与NVIDIA Vera CPU和Rubin GPU协同工作,组成全新的NVIDIA Vera Rubin NVL144 CPX平台,为AI推理任务带来前所未有的性能提升和投资回报。
据悉,Rubin CPX整机功耗从180-200kw升级到350kw,电源和液冷系统面临全新挑战。单位面积下的计算和传输功耗越来越大,同时由于计算集群的变大,总功耗也变大,由此产生了高功率的电源和液冷需求。
预估Rubin CPX芯片的热设计功耗TDP约800W,但考虑到包含GDDR7内存的整个模块后,总功耗会升至880W。为了冷却计算托盘前部的Rubin CPX模块,机箱前部的散热⽅式必须从空⽓冷却升级为液冷。而液冷技术每增加一颗CPX芯片,都需要配一块冷板。
英伟达尝试的液冷方案
有报道称,英伟达正在新尝试3种液冷方案,分别是芯片直刻微通道、微通道盖板、液体喷射。目前3种方案都在测试中,且微通道方案壁垒较高,是把冷却“直接做到芯片盖板上”,通过在盖板内加工微小流道,让冷却液几乎贴身带走 GPU 热量。
该方案比传统冷板更高效、更紧凑。技术难度显著提升,一方面制造工艺复杂,在薄盖板上蚀刻/加工微通道,需要高精度制造和可靠性验证;另一方面是封装和密封,液体密封必须高度可靠,防止渗漏。此方案非常适合未来Rubin这种千瓦级GPU。
根据维谛预测,未来预计每年新增超过1000个大于100KW的机架,截至2024年底,数据中心装机总量达到 54GW,预计2026年达到74GW(CAGR13.7%)。随着液冷服务器出货量提升。预计2030年液冷服务器渗透率能达到35%,目前约为10%。*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!