NVIDIA多元产品分攻AI训练、推理需求,迎战CSP自研ASIC规模升级
根据TrendForce最新AI server研究,在大型云端服务供应商(CSP)加大自研晶片力道的情况下,NVIDIA于GTC 2026大会改为著重各领域的AI推理应用落地,有别于以往专注云端AI训练市场。其推动GPU、CPU以及LPU等多元产品轴线分攻AI训练、AI推理需求,并藉由Rack整合方案带动供应链成长。
TrendForce表示,随著以Google、Amazon等CSP为首的自研晶片态势扩大,预估ASIC AI server占整体AI server的出货比例将从2026年的27.8%,上升至2030年的近40%。
为巩固在AI市场的领导地位,NVIDIA采取的其中一项策略为积极推动GB300、VR200等整合CPU、GPU的整柜式方案,强调可扩展至AI推理应用。本次在GTC发表的Vera Rubin被定义为高度垂直整合的完整系统,涵盖七款晶片和五款机柜。
观察Rubin供应链进度,预计2026年第二季记忆体原厂可提供HBM4给Rubin GPU搭载使用,助NVIDIA于第三季前后陆续出货Rubin晶片。至于NVIDIA GB300、VR200 Rack系统出货进程,前者已于2025年第四季取代GB200成为主力,预估至2026年出货占比将达近80%,而VR200 Rack约于2026年第三季底可望逐步展开出货量能,后续发展仍须视ODM实际进度而定。
另外,AI从生成跨入代理模型时代,在生成Token的解码(Decode)阶段面临严重的延迟与记忆体频宽瓶颈。为此,NVIDIA整合Groq团队技术,推出专为低延迟推理设计的Groq 3 LPU,单颗内建500MB SRAM、整机柜可达128GB。
然而,LPU本身的记忆体容量无法容纳Vera Rubin等级的庞大参数与KV Cache。NVIDIA因此于本次GTC提出「解耦合推理(Disaggregated Inference)」架构,透过名为Dynamo的AI工厂作业系统,将推理流水线一分为二:处理代理型AI时,须进行大量数学运算并储存庞大KV Cache的Pre-fill、Attention运算阶段,交由具备极高吞吐量与巨量记忆体的Vera Rubin执行。而受限于频宽且对延迟极度敏感的解码与Token生成阶段,则直接卸载至扩充了巨量记忆体的LPU机柜上。
在供应链进度上,第三代Groq LP30由Samsung代工,已进入全面量产阶段,预计于2026年下半年正式出货,未来更规画于下一代Feynman架构中推出效能更高的LP40晶片。



