超节点行业：从计算托盘角度拆解英伟达VRNVL72，通信速率三重升级，超级联网价值显著提升

超节点行业：从计算托盘角度拆解英伟达看好/维持VR NVL72，通信速率三重升级，超级网卡价值显著提升投资摘要：2026年英伟达最新发布的超节点Vera-Rubin NVL72，是全球领先的Scale up网络算力平台。Rubin平台由六款全新芯片组成，包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-6以太网络交换机。据英伟达公布的数据，Rubin平台的训练性能达到前代Blackwell的3.5倍，运行AI软件的性能提升5倍。此外，与前一代相比，英伟达 Rubin平台在训练MoE模型时所需的GPU数量减少至原来的四分之一，进一步推动人工智能的普及应用。在VR NVL72中，AI计算任务从外部网络进来，数据经过ConnectX-9、BlueField-4、Vera CPU，再分配到GPU和机架内其他71颗GPU协同完成计算，最后计算结果通过网络传送出去。在计算托盘中，数据传输路径可以分为三段：Vera CPU至 Rubin GPU之间通过 NVLink C2C 高速链路互联；Vera CPU至 CX-9之间通过两条PCIe Gen6链路分别连接到两个CX9的PCIe Switch模块；以及CX-9至OSFP之间通过800G以太网/ InfiniBand互联。NVLink-C2C技术重构异构计算的互联范式，在裸片/芯片间互联领域建立巨大的领先优势。在VR200 NVL72中，Rubin-Vera之间依托NVLink-C2C（Chip-to-Chip，芯片到芯片互联）实现双向带宽1.8TB/s CPU-GPU互联，延迟纳秒级，相比GB200 NVL72 的NVLink-C2C的900GB/s，提升一倍。而主流PCle Gen5架构双向带宽为128GB/s带宽，非一致性内存访问增加编程复杂性以及计算资源闲置等待。NVLink-C2C的核心技术原理在于：通过AMBACHI协议实现硬件级缓存一致性，CPU和GPU缓存自动同步；CPU内存与GPU显存在软件视角呈现为单一内存池；对系统范围跨处理器的原子读写无需额外同步原语。采用PCIe Gen6协议实现Vera CPU与超级网卡CX-9互联。PCIe Gen6是第六代高速外设互联标准，CPU与网卡、存储等外设的通用接口。PCIe 6接口支持48条Lane，每条Lane单向速度64 Gbps。因此，Vera与CX-9之间接口双向总带宽达到768GB/s。PCIe Gen6信号需要使用高端PCB与玻纤布传输。在VR200 NVL72计算托盘中，PCIe Gen6信号从 Strata 模块传输到Orchid 模块前端，PCB距离长达约500mm。为实现信号完整性，VR200 NVL72除了升级双向 SerDes技术外，还需要升级PCB材料。在材料层面，CCL（覆铜板）从 M7 升级到 M8/M9，主计算板和网络板的铜箔升级到 HVLP4，材料价值显著上升；为了降低介质损耗，玻璃纤维布或价值更高的石英材料被用于Orchid板和中置板。采用以太网/ InfiniBand协议实现超级网卡CX-9与OSFP光模块笼口互联。CX-9一项重要升级在于，其在以太网模式下通过单个端口即可提供1x800G的传输能力，无需依赖多链路聚合实现总吞吐量。相比之下，CX-8仅在InfiniBand架构下支持800G速率，但在以太网模式下通常以2x400G的配置呈现。在VR NVL72计算托盘中，8个800G的CX-9网卡对应OSFP笼位的数量有两种方案：一种是每颗GPU配1个1.6T OSFP笼口，则每个计算托盘共4个1.6T OSFP笼口；另一种则是每颗GPU配2个800G OSFP笼口，则每个计算托盘共8个800G OSFP笼口。