超节点行业:从计算托盘角度拆解 英伟达 看好/维持VR NVL72,通信速率三重升级,超级网卡价值显著提升投资摘要:2026年 英伟达 最新发布的超节点Vera-Rubin NVL72,是全球领先的Scale up网络算力平台。Rubin平台由六款全新芯片组成,包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-6以太网络交换机。据 英伟达 公布的数据,Rubin平台的训练性能达到前代Blackwell的3.5倍,运行AI软件的性能提升5倍。此外,与前一代相比, 英伟达 Rubin平台在训练MoE模型时所需的GPU数量减少至原来的四分之一,进一步推动人工智能的普及应用。在VR NVL72中,AI计算任务从外部网络进来,数据经过ConnectX-9、BlueField-4、Vera CPU,再分配到GPU和机架内其他71颗GPU协同完成计算,最后计算结果通过网络传送出去。在计算托盘中,数据传输路径可以分为三段:Vera CPU至 Rubin GPU之间通过 NVLink C2C 高速链路互联;Vera CPU至 CX-9之间通过两条PCIe Gen6链路分别连接到两个CX9的PCIe Switch模块;以及CX-9至OSFP之间通过800G以太网/ InfiniBand互联。NVLink-C2C技术重构异构计算的互联范式,在裸片/芯片间互联领域建立巨大的领先优势。在VR200 NVL72中,Rubin-Vera之间依托NVLink-C2C(Chip-to-Chip,芯片到芯片互联)实现双向带宽1.8TB/s CPU-GPU互联,延迟纳秒级,相比GB200 NVL72 的NVLink-C2C的900GB/s,提升一倍。而主流PCle Gen5架构双向带宽为128GB/s带宽,非一致性内存访问增加编程复杂性以及计算资源闲置等待。NVLink-C2C的核心技术原理在于:通过AMBACHI协议实现硬件级缓存一致性,CPU和GPU缓存自动同步;CPU内存与GPU显存在软件视角呈现为单一内存池;对系统范围跨处理器的原子读写无需额外同步原语。采用PCIe Gen6协议实现Vera CPU与超级网卡CX-9互联。PCIe Gen6是第六代高速外设互联标准,CPU与网卡、存储等外设的通用接口。PCIe 6接口支持48条Lane,每条Lane单向速度64 Gbps。因此,Vera与CX-9之间接口双向总带宽达到768GB/s。PCIe Gen6信号需要使用高端PCB与玻纤布传输。在VR200 NVL72计算托盘中,PCIe Gen6信号从 Strata 模块传输到Orchid 模块前端,PCB距离长达约500mm。为实现信号完整性,VR200 NVL72除了升级双向 SerDes技术外,还需要升级PCB材料。在材料层面,CCL(覆铜板)从 M7 升级到 M8/M9,主计算板和网络板的铜箔升级到 HVLP4,材料价值显著上升;为了降低介质损耗,玻璃纤维布或价值更高的石英材料被用于Orchid板和中置板。采用以太网/ InfiniBand协议实现超级网卡CX-9与OSFP光模块笼口互联。CX-9一项重要升级在于,其在以太网模式下通过单个端口即可提供1x800G的传输能力,无需依赖多链路聚合实现总吞吐量。相比之下,CX-8仅在InfiniBand架构下支持800G速率,但在以太网模式下通常以2x400G的配置呈现。在VR NVL72计算托盘中,8个800G的CX-9网卡对应OSFP笼位的数量有两种方案:一种是每颗GPU配1个1.6T OSFP笼口,则每个计算托盘共4个1.6T OSFP笼口;另一种则是每颗GPU配2个800G OSFP笼口,则每个计算托盘共8个800G OSFP笼口。