「六芯组合」是单芯片红利触顶的现实倒逼,也是英伟达在推理市场的破局之举。

作者丨赵之齐

编辑丨包永刚

在预训练赛道凭借硬件性能与生态优势称霸的英伟达,进入AI推理时代后,面临新的挑战。

在CES 2026上,英伟达创始人兼CEO黄仁勋强调了“物理AI”是AI的下一波浪潮。他将推理性AI置于核心位置,发布了具备自主思考能力的自动驾驶AI Alpamayo,提出了与西门子联手打造工业AI的未来蓝图,并且,也披露了下一代AI计算平台Vera Rubin的细节。

显然,黄仁勋不愿让Rubin停留在“概念革命”的想象层。他花了大量篇幅阐述AI推理带来的挑战:模型规模每年增长十倍,推理从单次生成走向多步思考,所需算力呈指数级膨胀,更长的上下文也导致存储与带宽压力飙升。

对此,英伟达给出的解决方案是,集成Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-X以太网交换机的组合平台。


在部分业内人士眼中,这是一场“营销意味更重”的发布:面对TPU、超节点等在推理领域相继崛起,以及单芯片制程逼近物理极限的现实,英伟达推出六芯协同组合Rubin平台,是其保持在推理市场领先地位的关键一步。

但这背后也隐藏着现实问题:

Rubin的推理性能突破,建立在NVFP4自适应调整精度前提下,“但提高FP4精度的推理,难免会挤压FP16、FP32等更高精度的计算资源,且精度下降后,对于文生视频等对精度敏感的场景而言,推理质量也会肉眼可见地变差”。

而对于黄仁勋提出Rubin平台用45℃温水冷却、有望为全球数据中心总电力消耗节省约6%的论断,AI系统架构师徐先生解读:“这种方式的出液与进液温差很小,核心元器件的实际工作温度可能维持在八九十摄氏度,机柜的故障率很难实质下降。”

面对这一系列严苛的前置条件,Rubin能否切入推理市场并实现大规模落地,尚不明朗。(更多关于Rubin落地的细节判断,欢迎添加作者微信Ericazhao23交流。)

不过,黄仁勋形容这套六芯组合系统的出现“恰逢其时”——它告别了单一芯片的能力竞赛,迈向算力基础设施的全栈升级,这与他在GTC 2025上强调的打造“AI工厂”概念,一脉相承。

对于此次战略转向,多位业内人士给出了相似判断:“Rubin的发布对于国产芯片来说短期会利空,但长期会利好。从英伟达这个动作可以看出,单芯片性能红利已经触顶,多芯片协同与系统设计能力会成为新的破局关键。

这种系统性的能力,也是许多国产芯片公司已在探索的技术路径。

Rubin的发布,是英伟达在推理时代进一步加固自身的生态护城河。然而,行业也已形成共识:“训练业务的价值核心是效率,但推理业务的核心是成本”。在新的价值逻辑下,Rubin要实现它的蓝图,需要跨过哪些关卡?在竞争日趋激烈的推理赛道中,英伟达还能延续其在预训练领域的霸主地位吗?

01

从芯片竞争到系统博弈:Rubin带来的启示

在CES现场聆听分享的胡晨辉,已有十多年芯片从业经验。已经耳闻Rubin存在的他,这次比起惊喜,更多是平静地感慨:“它终于来了”。

在他看来,黄仁勋的整场演讲,都在传递一种“强者恒强”的气质

介绍完架构细节后,黄仁勋强调了Vera Rubin在商业上的亮眼表现:

训练一个十万亿参数规模的大模型时,其所需的集群规模仅为Blackwell系统的四分之一;在同等功耗和空间条件下,一座Vera Rubin数据中心的AI计算吞吐量,预计可达到基于Hopper架构数据中心的约100倍。

不仅如此,未来大规模AI服务的token生成成本,预计能降到当前水平的十分之一左右。

这样的性能与成本优势,切中了推理时代的核心需求——过去数据中心“更大模型+更强算力”的发展路径,如今已难以被复制,各类交互、驾驶、控制等场景对时延高度敏感,且更多落地在端边侧,对成本有着苛刻追求。面对群雄逐鹿的格局英伟达也开始以“性价比”为抓手,坚守推理市场的份额。

黄仁勋还指出,此次Rubin的发布,也打破了英伟达过往“每一代新平台不应有超过一两个芯片发生变动”的原则,可以说是其从“AI芯片厂商”,向打造“AI工厂”转型的重要一步。

对于这一策略的转变,炜烨智算副总裁孟健雄认为,短期内对国产芯片可能利空,但最终一定是具备制造业优势的中国更占赢面——只是这个周期可能非常漫长

徐先生也直言,这次英伟达的动作,释放出一个关键信号:如今他们讲的不再是单芯片的故事,而是多芯片系统的协同价值,这意味着其芯片设计、代工封装等环节已经接近物理极限,对国产芯片来说,反而是一种利好

芯片领域资深投资人IO资本创始合伙人赵占祥,也持相似立场。他指出,通过全局设计来提升综合算力、推出整机乃至集群级的解决方案,是Google TPU很早就开始走的路线,而这条技术路径,国内已有不少芯片创业公司在积极布局。(各类芯片架构的进一步探讨,欢迎添加作者微信Ericazhao23交流。)

此外,这一趋势对国内存储厂商也十分有利

他进一步分析说:大模型推理对KVCache的调用频率更高,当前的性能瓶颈是GPU直连的HBM容量有限,而存储服务器又与计算单元的物理距离过远。由此来看,未来CXL存储、LPDDR等新型高速存储技术,都有望被部署到GPU周边,通过缩短数据传输链路来提升推理性能,进而带动相关技术的商业化落地与规模化应用。

毋庸置疑的是,英伟达发布的Rubin平台,在硬件性能和性价比上的进一步突破,也加强了其生态护城河。

但赵占祥也指出一个核心矛盾:英伟达试图通过强化软硬耦合,绑定客户采购其全套产品;但客户其实更倾向于选择软硬解耦的方案,不愿被英伟达的生态完全绑定,因此,采购决策负担与顾虑也可能随之加重。

不过,在生态绑定的争议之外,Rubin所标榜的五倍性能突破,要真正落地应用,还需跨过多重技术与实践关卡。

02

动态精度调整,“伟大的发明”还是美好的想象?

在CES 2026上,黄仁勋把NVFP4 Tensor Core称作是一项“伟大的发明”。

这是一个完整的处理器单元,能自适应地调整精度和结构,从而在允许精度损失的场景下实现更高吞吐量,并在需要时恢复到可能的精度。这种动态调整能力,完全在处理器内部自主完成。Rubin GPU的AI推理浮点性能相较上一代Blackwell提升五倍,核心驱动力正是NVFP4 Tensor Core对精度与吞吐率的自适应调度能力

然而,这种技术模式能否获得市场青睐?

“晶体管就那么大,提高FP4精度的推理,难免会挤压FP16、FP32等更高精度的计算资源”,AI系统架构师徐先生说道。

显然,高精度是预训练的刚需,一定程度上牺牲了精度的Rubin,瞄准的最大场景或是未来行业模型的后训练和推理应用、训推一体化领域。

但这就陷入一个尴尬境地:即便英伟达仍维持着技术领先的地位,国内厂商却已开始凭借超节点等形态进行追赶,“这条赛道跟国产芯片厂商布局高度重叠,英伟达当下力推的技术方向,国产厂商也在做”,徐先生补充道。

同时,不可忽略的是,在推理领域,精度下调虽能减少显存占用、提升运算速度,但也会对模型的最终准确率产生影响

有国内大模型厂商的从业人士告诉雷峰网,公司内部曾开展多轮不同精度的对比测试,结果显示,尤其是在文生视频领域,当精度从FP16降到FP8,视频的生成效果已经肉眼可见地变差——这还建立在当前多数文生视频产品时长仅为五秒的前提下。

不过,业内也有不同看法。赵占祥认为,在推理需求高速增长的情况下,精度压缩是行业必经之路,由于NVFP4张量核心能实时分析Transformer模型各层的计算特性、动态调整数据精度与计算路径,本质上还是推理的自适应数据压缩技术,会在精度损失和推理性能之间做平衡。

即便如此,市场对于向FP4精度跨越仍存疑虑:当前业内主流的推理精度普遍停留在FP8级别,当精度进一步压缩,虽然英伟达宣称可通过特定技术实现微乎其微的精度损失,但在文生视频等对精度敏感的场景中,是否会引发更显著的效果衰减?

种种未知下,Rubin技术落地的真实效果,行业还在等待验证。

03

功耗翻倍:Rubin能否跨过能源与散热门槛?

“Vera Rubin的功耗是Grace Blackwell的两倍,但我们仍然能将Vera Rubin塞进这个框架里,这本身就是一个奇迹”,黄仁勋在大会上说道。但这份乐观,能否真正实现?

“散热是未来超节点和万卡集群最重要的竞争点”,AI系统架构师徐先生说道。

Rubin的液冷计算托盘,摒弃了传统的电缆和软管设计。在徐先生看来,这样设计的优势在于无线缆架构,能对GPU、CPU、网卡及存储等核心模块都进行制冷处理。

不过,他指出,这种方案下,如果进液温度为45度,出液温度可能就在50度左右,如此小的温差,预估核心元器件的实际工作温度仍会维持在八九十摄氏度。这就意味着,机柜的故障率很难实质下降,整个集群的模型浮点运算利用率(MFU)大概率停留在30%-50%的区间,硬件算力依然存在严重浪费。

尽管已有业内消息称,面对Rubin与下一代Feynman平台的功耗激增,现有散热方案已经难以应对,英伟达正要求供应商研发“微通道水冷板”技术,但在徐先生看来,这种方案的天花板较低,最终的散热体系还是要融入浸没式液冷技术,才能突破瓶颈。(服务器散热技术迭代,液冷如何破局?欢迎添加作者微信Ericazhao23交流。)

除了散热,电力供应也是不容忽视的关键环节

“一个很有意思的现象,以前你走进大厂的机房,一排机柜看过去都是满满当当装着服务器,但现在,一个机柜里可能只有一两台,看起来空空荡荡的”,某大厂算力行业人士李明说道。

背后原因,是现有电力承载力已难以匹配设备的能耗需求。

黄仁勋也抓住了这一痛点。他介绍,Vera Rubin平台坚持使用45摄氏度温水冷却,无需能耗巨大的冷水机组,这一设计预计能为全球数据中心节省约6%的总电力消耗。

在李明看来,如果这个故事真能讲通,那对于当下电力资源紧缺的全球数据中心市场来说,无疑是一剂强心针。

不过,一个无法回避的现实是,Rubin的规模化落地,需要一套更全面的非标配套体系作为支撑。

胡晨辉指出,未来部署Rubin产品的总拥有成本(TCO)肯定会降低,毕竟能源利用效率显著提升,但同时,部署Rubin的IDC可能需要专用变电站来支撑。徐先生也认为,Rubin架构单机柜的功耗门槛极高,需要大量非标电压、电线等配套设施,实则给供电系统带来了不小的压力。

与此同时,很多数据中心原来的硬件配置乃至运维团队,可能都要因此“换一波”。不过,炜烨智算副总裁孟健雄也推测,在故障率相当的前提下,设备集成度越高、系统内故障源点越少,相应的维护成本也有望降低

在群雄逐鹿下,英伟达的Rubin“豪赌”能否落地,取决于其能否跨过能源与精度的双重门槛;而国产芯片的未来,则在于能否抓住这次规则重构的机遇,例如通过增加芯片部署数量、制定更优的散热方案,将系统设计的优势转化为真正的市场竞争力。

当六芯组合的时代真正来临,胡晨辉最强的体会是:SOC不再是传统意义上的系统级芯片,系统也不再局限于硬件的简单集成,行业里的参与者,都要树立做“场景底座”的商业思维。

这场围绕AI基础设施的博弈,正火热展开。

作者长期关注半导体、算力上下游等方向,欢迎添加作者微信Ericazhao23交流。

注,文中李明为化名。