
调研纪要
事件:谷歌发布TPUV5p,相比TPU v5e和TPU v4性能大幅提升(FLOPS超过2倍,内存HBM增加了3倍),尤其是OCS网络架构受到热议,大家解读差异性很大,我们根据论文以及产业实际交流,客观、详细解析如下:
1、TPU是谷歌战略推动的自研产品,是否主流还需观察
- TPU集群是谷歌为降本做出的自研选择。以TPUv4 4096集群为例,其特点是相对同样数量的集群IB 3层网络架构下,IB网络需要568个 QM8790 40port交换机,每个单价预计为1.5-1.8w美金;而TPU集群仅需要48个 128端口(一共136端口,8个测试端口)的OCS交换机。因此可以降低光学部分的成本。
- TPUv4为例,单卡大概数千美金,即使对标A100也更为便宜,而且交换机和光模块部分还可以节省,因此对于谷歌来说该系统是一个性价比较高的系统。即使TPUv5价格更高些,也比H100要便宜。
- 3D Torus相较Clos网络具备更低延迟,对于密集I/O的并行任务特别有用;同时具备更好的临近域,因为大量的workload只是在相邻的局部区域流动;此外具有更低的网络直径,对于同样数量的节点,3D Torus使用的交换机/线材保有量更低,网络层次更少。同时可以重配路由,支持动态可重配路由,无需等待整个网络收敛,该特性容易隔离下线故障节点。
2、影响一:光模块比例与预期无差异,更应该关注连接的绝对数量
- TPU-V5P对应800G光模块。在3D-Torus架构下,每个TPUV5p芯片拥有6个ICI互联,而v5p ICI PER CHIP总带宽为4800Gb/s,即单ICI互联端口速率为800Gb/s。
- 类比TPUV4,我们预计TPUv5p对应800G光模块数量大致为1:1.5-1:2,这是今年早些时候谷歌发布市场已知信息,这个比例后续有上调空间。TPU集群的连接逻辑如下:1)同一个Rack(64颗芯片,16个Package/Tray)内部互联是采用铜缆;2)不同Rack的Package/Tray互联采用光模块,通过OCS进行互联(通过OCS的必然是光模块);3)考虑每个Rack外部互联的个数,匹配上OCS的端口数,一个Rack外部连接有96 Optical Link,一共有64个Rack,对应64*96=6144个,最后比例为4096:6144=1:1.5。以上为TPUv4 4096个芯片的情况,如果是TPUv5p 8960个芯片也将是同比例缩放。但由于800G电缆目前极少,很可能电缆互联的部分也会换成800G光模块,因此具备上调空间(实际部署可能1:2或以上)。
- 我们认为谷歌用较低成本的AI芯片方案,由于AI芯片较为便宜,组网量可以非常巨大,绝对数量上会带动更多光模块需求,因此也对应2024年G产生的大量800G需求。该业务主要通过博通Custom ASIC业务在台积电流片,该业务博通FY24指引非常积极,我们预计G下单量未来可以持续超预期。
3、影响二:尝试找出OCS(Optical Circuit Switch)相应的产业链
- OCS很早便应用在谷歌Jupiter数据中心中,主要特点是无需光电转换(因此OCS上没有光模块),其特点是可以快速扩容不同速率的spine block,因此每一轮速率升级G都是最先出现需求,是因为OCS使得不同速率的Spine Block和Aggregation Block可以互相兼容。为此G客户需求常为500m-2km的波分光模块(FR系列等)。
- OCS光交换系统主要组成部件有MEMS振镜,850nm光源,摄像头模组,2D透镜阵列,环形器(光模块侧,减少光纤用),波分光模块,滤波片。映射到国内主要有光迅科技(MEMS光开关,具备MEMS能力)、腾景科技(滤波片)等,但需要注意的是目前仅仅是映射,还不存在供应关系。
- 国内厂商具备光交换背板能力的厂商有太辰光(数据中心连芯),德科立(骨干网OXC较好节点光背板)。值得注意的是,此处的光交换背板是固定走向的,与谷歌的OCS可以通过MEMS动态调整出入光路并不相同。
【Gemini算力光模会议纪要】
- 谷歌面临的情况及对板块的影响:
· 谷歌正面临一些情况,对光模块行业有核心影响;
· 今年上半年,光模块围绕谷歌和微软的全面奥运布局展开;
· 谷歌在浏览器和安卓系统方面取得了重大胜利,这对系统厂商和手机厂商都有重要影响;
· 谷歌的整体能力很强,能解读多模态的复杂场景,对相关产业有利好影响;
· 谷歌的研发投入超过了OPPO,这将加剧海外巨头之间的竞争;
· 谷歌产业链中受益的标的包括中继续创、太晨光、博创科技和腾景科技。
- 中际旭创:
· 是谷歌数据中心光模块的核心供应商;
· 受益于谷歌的云基础设施投入。
- 太辰光:
· 客户主要来自谷歌,开始在谷歌进行布局;
· 受益于谷歌的数据中心光模块需求。
- 博创科技:
· 收购了长兴盛,成为谷歌数据中心的核心供应商;
· 有望受益于谷歌的光交换机需求。
- 腾景科技:
· 通过鲁门村供应到微软,也涉足光交换机领域。
- AOL:
· 1.6T产品进展加快,有望提前实现商用;
· 得到谷歌客户的认可,有望获得更多订单。
来源:调研纪要
展开阅读全文
文章观点仅代表作者观点,或基于大数据智能生产,不构成投资建议。投资者依据此做出的投资决策需自担风险,与通联数据无关。