AI时代的下一个光模块!液冷技术全解析(附部分受益企业)

专栏头像

热门主题产业链

AI高速互联时代,高算力与高效传输架构相匹配,从40G取代10G,100G取代40G,400G取代100G,800G取代400G,1.6T有望取代800G,升级之路永不停息!#AI #液冷技术

与此同时,散热领域相关技术也在提升,从自然风冷到空调风扇、散热片,再到液冷。如今英伟达部分产品已经超过风冷极限,液冷正从“选配”升级为“必配”。

一场算力革命下的散热革命悄然上演,液冷领域势必重现光模块神话!

在物理学中,“电”和“热”往往相伴而生,本质是能源守恒定律下,电流做功(电能)转化为热能。基本上数据中心消耗的所有电量都会转变成热量,功耗越大,产生的热量越多,当一定数量的CPU、GPU被集成以机柜或者数据中心的规模同时工作时,还会导致密闭空间的数据中心内部环境升温。

冷却系统是数据中心的“体温”调节中枢。对于数据中心而言,电子设备的安全较大程度取决于稳定的空气温度和相对湿度,制冷系统一旦中断,只能通过数据中心内部空气、IT设备和建筑围护结构吸热,这将进一步加重IT设备的散热负担。

实践表明,数据中心服务器温度每升高10°C,设备可靠性和寿命就会降低50%,因此即使是很短时间的中断或失效,也可能导致运算效率降低、硬件损坏或者数据丢失,进而导致数据中心停摆。

(资料来源:阿里云官网,Redmondmag官网,FIREFIGHTER CLOSE CALLS官网,国金证券研究所)

冷却方案可分为风冷和液冷。其中,风冷仍是我国数据中心常用的冷却方式,2021年占比接近60%。风冷散热依赖于空气流动来带走热量,但空气的导热性能相对较差,散热上限是800W,当芯片功率超过1000W时,风冷散热可能无法有效地将热量从芯片上带走,导致芯片温度过高,影响其稳定性和可靠性。

(资料来源:科智咨询、中国信通院产业与规划研究所,中邮证券研究所)

液体的比热容为空气的1000-3500倍,导热性能是空气的15-25倍,能够满足高功率芯片的散热要求。此外,从经济性来看,自然风冷的数据中心单柜密度一般只支持8-10kW,而当数据中心单柜能耗达到15kW以上时,风冷的性价比将大幅降低,液冷技术将逐渐显露其经济性优势。当前AI集群算力密度普遍达到50kW/柜,风冷在可行性和经济性上均劣于液冷。

(资料来源:《相变浸没式液冷系统研究》,国金证券研究所)

02液冷

液冷是利用高比热容流动液体吸收并迁移计算机内部元件产生的热量到外部的冷却方法。这种方法的优点在于利用液体传热,相较于空气,液体的高比热容能更高效地传递热量,从而降低能量消耗。

液冷技术根据接触方式不同,分为直接液冷技术和间接液冷技术。间接液冷技术中,冷却液体与发热器件不直接接触,主要包括冷板式。直接液冷技术中,冷却液体与发热器件直接接触,主要包括浸没式喷淋式,其中浸没式根据冷却介质是否发生相变又可分为单相浸没式和相变浸没式。

(资料来源:中兴通讯《液冷技术白皮书》)

与传统风冷技术相比,液冷技术节能效果显著提高。数据显示,风冷散热下数据中心的PUE 值通常在1.5左右;冷板式液冷PUE值为1.1-1.2,相变浸没式液冷PUE值小于1.05,单相浸没式液冷PUE值小于1.09,喷淋式液冷PUE值小于1.1

(资料来源:《绿色高能效数据中心散热冷却技术研究现状及发展趋势》,ODCC)

02-1 冷板式液冷技术

冷板式液冷是通过设置在设备内部的液冷板间接传递发热器件的热量至循环管路中的冷却液体,利用冷却液体将热量有效带走,实现散热,为设备提供一种高效的散热方式。

液冷系统的架构分为室外侧和室内侧两部分。室外侧包括冷却塔(一次侧冷源的核心部件)、一次侧管网和一次侧冷却液;室内侧包括CDU(核心组件之一)、液冷机柜、ICT设备、二次侧管网和二次冷却液。其中,CDU确保冷却液的有效循环和热量的有效转移,分为分布式CDU和集中式CDU。集中式CDU适用于规模部署液冷服务器机柜的场景。

(资料来源:中兴通讯《液冷技术白皮书》)

冷板式液冷目前应用最广泛,具有诸多优势。存量的数据中心机房由风冷向液冷改造时,冷板式液冷的改造成本相对更低。同时,其PUE值更低(1.2),可实现在线维护方案。

02-2 浸没式液冷技术

浸没式液冷是一种通过将发热器件完全浸没于冷却液中,实现部件与冷却液之间直接接触且发生热交换的冷却方法。

浸没式液冷系统室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含CDU、浸没腔体、IT设备、二次侧管网和二次侧冷却液。

1)单相浸没式液冷:在热量传递过程中,传热介质二次侧冷却液只会经历温度的改变,没有发生任何相态的变化,即热量的传递完全依赖于物质的感热变化。CDU的循环泵推动二次侧的冷冷却液自浸没腔体的底部进入,在流过竖直放置于浸没腔中的IT设备时,移走设备热量。随后,吸收了热量并升温的二次侧冷却液从浸没腔体的顶部离开,流向CDU。在CDU中,通过板式热交换器,冷却液将其所携带的热量转移给一次侧的冷却液。最后,已经升温的一次侧冷却液经过冷却塔,将热量释放至大气中,完成整个冷却过程。

2)相变浸没式液冷:二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。传热路径与前者基本相同,区别在于,二次侧冷却液只在浸没腔体内循环,且浸没腔体内部形成了液态和气态两个区域:顶部为气态区,底部为液态区。IT设备被完全沉浸在具有低沸点的液态冷却液中,当冷却液吸收了设备产生的热量后沸腾并转化为高温气态。这些气态冷却液的密度较低,会逐渐上升到浸没腔体的顶部,在那里与顶部的冷凝器进行热交换并冷凝成低温的液态。这些冷却液在重力的作用下重新回到腔体底部,从而完成IT设备的散热过程。

(资料来源:《绿色高能效数据中心散热冷却技术研究现状及发展趋势》,中兴通讯《液冷技术白皮书》)

02-3 喷淋式液冷技术

喷淋式液冷是将冷却液直接喷洒到芯片级器件或其连接的导热元件上的直接接触式冷却方式,通过重力或系统压力实现精准冷却。

这种系统主要包括冷却塔、冷却配送单元(CDU)、一次侧和二次侧的冷却管路、冷却介质,以及配备有管路系统、布液系统、喷淋模块和回液系统的喷淋式液冷机柜。

在喷淋式液冷系统中,经CDU冷却的冷却液被泵送至喷淋机柜,直接通过分液器进入与服务器对应的布液装置进行喷淋,或先输送至进液箱以获得驱动喷淋的重力势能。冷却液在经过IT设备的发热部件或其连接的导热材料时进行喷淋制冷,加热后的冷却液再通过回液箱收集并被泵送回CDU,进行下一轮的冷却循环。

(资料来源:中兴通讯《液冷技术白皮书》)

喷淋式液冷实现了100%液冷,其结构颠覆性优于浸没式液冷;但节能效果差于浸没式液冷,且存在与浸没式液冷相同的局限性问题,如器件选型的局限性、维护局限性以及机房环境的特殊性,目前应用较少。

03产业链

液冷产业生态涉及产业链上中下游,包括上游的产品零部件提供商、中游的液冷服务器提供商及下游的算力使用者。

产业链上游:上游主要为产品零部件及液冷设备,包括快速接头QDC、冷量分配单元CDU、电磁阀、浸没液冷TANK、分级液器Manifold、冷却液、环路工艺冷媒供回歧管LCM等组件或产品供应商。部分代表厂商有英维克、3M、云酷、竞鼎、诺亚、广东合一、绿色云图、维谛技术、润和材料等。

产业链中游:中游主要为液冷服务器、芯片厂商以及液冷集成设施、模块与机柜等。部分代表厂商有华为、中兴、浪潮信息中科曙光、新华三、联想、超聚变、英特尔等。

产业链下游:下游主要包括三家电信运营商,百度、阿里巴巴、腾讯、京东等互联网企业以及信息化行业应用客户,主要在电信信息、互联网、政府、金融、交通和能源等信息化应用。目前,阿里巴巴以单相浸没式液冷为主要发展方向,其他用户以冷板式液冷试点应用居多。

(资料来源:《电信运营商液冷技术白皮书》,各公司官网,搜狐网,华西证券研究所)

04部分受益企业

英维克:国内领先的精密温控节能解决方案和产品提供商,产品广泛地应用于数据中心、算力设备、电化学储能系统、通信网络、电力电网、电动汽车充电桩、工业自动化等领域的设备散热。

高澜股份控股子公司聚焦新能源汽车热管理和ICT热管理领域。ICT热管理产品主要为服务器液冷板、流体连接部件、多种型号和不同换热形式的CDU、多尺寸和不同功率的TANK,换热单元。

申菱环境华为昇腾384液冷一供,在华为昇腾服务器上市后,申菱环境成为其液冷散热技术的核心供应商,覆盖冷板式、浸没式等多种解决方案。

浪潮信息发布全栈液冷产品,实现通用服务器、高密度服务器、整机柜服务器、AI服务器四大系列全线产品均支持冷板式液冷;提供液冷数据中心全生命周期整体解决方案,具有从室外一次侧冷源到室内二次侧CDU、液冷连接系统、液冷服务器等全线布局。

工业富联与全球主要服务器品牌商合作,开发高性能AI服务器等技术,为高性能人工智能数据中心提供支持;液冷技术方面,公司持续加大数据中心节能技术研发,通过沉浸式与机柜式液冷散热系统,实现成本节约及效率提升。

淳中科技与英伟达合作,主要对接液冷测试平台、基于AI的检测平台和测试板卡等业务,相关业务自2024年开始导入。

(特别说明:文章中的数据和资料来自于公司财报、券商研报、行业报告、企业官网、百度百科等公开资料,本报告力求内容、观点客观公正,但不保证其准确性、完整性、及时性等。文章中的信息或观点不构成任何投资建议,投资人须对任何自主决定的投资行为负责,本人不对因使用本文内容所引发的直接或间接损失负任何责任。)

来源:策金说

展开阅读全文