超节点行业:从计算托盘角度拆解英伟达VRNVL72,通信速率三重升级,超级联网价值显著提升

专栏头像

科技先锋

放松眼睛听

超节点行业:从计算托盘角度拆解英伟达

看好/维持

VR NVL72,通信速率三重升级,超级网卡

价值显著提升

投资摘要:

2026年英伟达最新发布的超节点Vera-Rubin NVL72,是全球领先的Scale up网络算力平台。Rubin平台由六款全新芯片组成,包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-6以太网络交换机。据英伟达公布的数据,Rubin平台的训练性能达到前代Blackwell的3.5倍,运行AI软件的性能提升5倍。此外,与前一代相比,英伟达Rubin平台在训练MoE模型时所需的GPU数量减少至原来的四分之一,进一步推动人工智能的普及应用。

在VR NVL72中,AI计算任务从外部网络进来,数据经过ConnectX-9、BlueField-4、Vera CPU,再分配到GPU和机架内其他71颗GPU协同完成计算,最后计算结果通过网络传送出去。在计算托盘中,数据传输路径可以分为三段:Vera CPU至 Rubin GPU之间通过 NVLink C2C 高速链路互联;Vera CPU至 CX-9之间通过两条PCIe Gen6链路分别连接到两个CX9的PCIe Switch模块;以及CX-9至OSFP之间通过800G以太网/ InfiniBand互联。

NVLink-C2C技术重构异构计算的互联范式,在裸片/芯片间互联领域建立巨大的领先优势。在VR200 NVL72中,Rubin-Vera之间依托NVLink-C2C(Chip-to-Chip,芯片到芯片互联)实现双向带宽1.8TB/s CPU-GPU互联,延迟纳秒级,相比GB200 NVL72 的NVLink-C2C的900GB/s,提升一倍。而主流PCle Gen5架构双向带宽为128GB/s带宽,非一致性内存访问增加编程复杂性以及计算资源闲置等待。NVLink-C2C的核心技术原理在于:通过AMBACHI协议实现硬件级缓存一致性,CPU和GPU缓存自动同步;CPU内存与GPU显存在软件视角呈现为单一内存池;对系统范围跨处理器的原子读写无需额外同步原语。

采用PCIe Gen6协议实现Vera CPU与超级网卡CX-9互联。PCIe Gen6是第六代高速外设互联标准,CPU与网卡、存储等外设的通用接口。PCIe 6接口支持48条Lane,每条Lane单向速度64 Gbps。因此,Vera与CX-9之间接口双向总带宽达到768GB/s。PCIe Gen6信号需要使用高端PCB与玻纤布传输。在VR200 NVL72计算托盘中,PCIe Gen6信号从 Strata 模块传输到Orchid 模块前端,PCB距离长达约500mm。为实现信号完整性,VR200 NVL72除了升级双向 SerDes技术外,还需要升级PCB材料。在材料层面,CCL(覆铜板)从 M7 升级到 M8/M9,主计算板和网络板的铜箔升级到 HVLP4,材料价值显著上升;为了降低介质损耗,玻璃纤维布或价值更高的石英材料被用于Orchid板和中置板。

采用以太网/ InfiniBand协议实现超级网卡CX-9与OSFP光模块笼口互联。CX-9一项重要升级在于,其在以太网模式下通过单个端口即可提供1x800G的传输能力,无需依赖多链路聚合实现总吞吐量。相比之下,CX-8仅在InfiniBand架构下支持800G速率,但在以太网模式下通常以2x400G的配置呈现。在VR NVL72计算托盘中,8个800G的CX-9网卡对应OSFP笼位的数量有两种方案:一种是每颗GPU配1个1.6T OSFP笼口,则每个计算托盘共4个1.6T OSFP笼口;另一种则是每颗GPU配2个800G OSFP笼口,则每个计算托盘共8个800G OSFP笼口。

以上内容节选自【东兴证券】已经发布的研究报告《超节点行业:从计算托盘角度拆解英伟达VRNVL72,通信速率三重升级,超级联网价值显著提升》及公开信息,具体分析内容(包括风险提示等)请详见完整版报告。若因对报告的摘编产生歧义,应以完整版报告内容为准。

展开阅读全文