数据中心的冷却技术在过去几十年中经历了巨大的演变,从早期的远端风冷发展到近端风冷,再到冷板液冷的批量成熟应用,以及目前正在研究的浸没式液冷。这一演变的主要驱动力包括数据中心计算密度和热流密度的不断增加,以及对能效(PUE)、总拥有成本(TCO)和可持续性的优化需求。数据中心最初依赖风冷系统,通过风扇和空调机将热量从服务器中移除。这种方法在计算密度较低时是有效的,目前全球大部分数据中心仍然在使用该冷却方式。随着数据中心的超大型化和高密度化发展,当前X86平台中央处理器 (CPU)最大功耗已达400W,图形处理器(GPU)功率突破700 W,网络介质访问控制(MAC)芯片功率更达到800W量级。英伟达DGX A100服务器在训练ChatGPT模型时,单服务器功率突破6.5 kW,较传统服务器提升16倍,NVL72单柜已经超过120kW[3]。这种功率的跃升直接导致芯片热流密度超过120 W/cm²,远超风冷散热极限,如图1所示。
热力学模拟显示,当芯片结温超过75℃时,其故障率将呈指数级增长,迫使散热技术必须实现从空气对流到液体传导的根本性转变。此外,风冷系统通常需要大量的风扇和空调设备,导致能耗增加,PUE较高。虽然全球平均PUE已从2019年的1.67降至2022年的1.55,但仍有改进空间。2021年12月8日,国家发展改革委等部门在《贯彻落实碳 达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》中提出:到2025年,数据中心运行电能利用效率和可再生能源利用率明显提升,中国新建大型、超大型数据中心PUE降到1.3以下,国家枢纽节点PUE进一步降到1.25以下,绿色低碳等级达到4A级以上。2023 年三大运营商联合发布的《电信运营商液冷技术白皮书》明确要求,2025年新建数据中心液冷应用比例需高于50%, 直接推动液冷技术从试点转向规模化部署。 综上所述,以液冷技术替代传统风冷技术,已成为数据中心冷却技术领域所不可阻挡的发展趋势。
1.2 单相液冷 
单相液冷通过冷板或直接将整个服务器浸没在冷却液中实现散热。在整个循环过程中,冷却液不发生相变。液体冷却的散热效率远高于空气,单相浸没液冷能够支持130 kW 的机柜散热需求,且各个电子器件均温性好,能耗低,单相冷板液冷甚至能够支持高达300 kW的机柜散热需求。相比于单相浸没液冷,单相冷板液冷仍需额外的空气冷却系统来处理允许结温较高的部件(如内存、网卡),系统复杂性较高。未来几年,Rubin Ultra NVL576的单机架功率密度最高可达600 kW,单相液冷技术的冷却能力逐渐面临瓶颈,亟需向相变液冷技术升级。
1.3 相变液冷
相变液冷包括相变冷板液冷和相变浸没液冷。不同于单相液冷,相变液冷技术利用冷却液的相变(液体-气体)吸收热量,显著提高了换热能力,能够处理极高的热流密度 (单柜600 kW)。相变冷板式液冷换热效果最强,冷却液用量少,但其高流阻导致泵的功耗较大,并且需要配合空气才 能实现其他部件的冷却。相变浸没式液冷不需要对空气进行冷却,简化了系统设计,显著降低了TCO。
《绿色液冷数据中心白皮书》显示,采用冷板液冷可将PUE降至1.15~1.25,而相变浸没式液冷更可实现1.1以下的超低能耗[2]。这种能效提升具有显著的规模效应。以10 MW数据中心为例,PUE每降低0.1,年节电量可达876万kWh,相当于减少二氧化碳排放8730 t。二、 相变液冷技术划分
2.1 技术原理及核心架构差异
相变冷板式液冷 
相变冷板式液冷技术通过将液冷板直接贴合于芯片或热源表面来实现散热,其核心原理是:冷却液在冷板内部吸收热量后发生汽化相变,蒸汽上升至冷凝单元重新冷凝为液态,再依靠泵驱动完成相变散热循环。 制冷剂或氟化液作为主要冷却介质也对液冷板、连接器及管路的材料性能提出严格要求。为提升散热效率,冷板可采用微通道、多孔介质等特殊结构设计以促进气泡脱离, 同时需选用耐高压材料以应对系统较高的工作压力。相变冷板式液冷通过相变沸腾/冷凝机制可高效吸收热量,支持 GPU功率范围在700~2 800 W的高热通量场景,单机柜计算密度可达600 kW。相比于相变浸没式液冷,相变冷板式液冷有两大优势:一方面,冷却液用量极低(100 kW机柜 仅需16 L),大幅降低运维成本;另一方面,部署灵活性, 既适用于新建数据中心也可用于现有设施的改造。尽管有着上述优势,相变冷板式液冷的应用仍面临诸多挑战:一方面,为高功耗组件逐一组装冷板,提高了系统的复杂性及初期成本;另一方面,整个系统压力较高,调控困难, 系统可靠性较低也是制约其应用的一个重要原因。相变浸没式液冷相变浸没式液冷技术通过将服务器或电子设备整体浸没于低沸点氟化液中来实现散热。冷却液直接接触所有发热元件并吸收热量后沸腾汽化,产生的蒸汽经冷凝单元散热液化后重新参与循环。通过全浸没式设计可捕获所有热量,服务器内部温度分布均匀,因此无需风扇额外辅助散热,实现了 整体低噪音运行。相较于需依赖泵强制驱动冷却液流动的相变冷板式液冷,相变浸没式的泵功耗更低,能耗优势明显, 在所有冷却技术中PUE最低,符合节能要求。然而,其应用仍面临多重挑战。首先,冷却液长期冲刷可能对器件表面性能造成潜在影响;其次,冷却液成本高昂(为单相浸没式液冷的10倍,国产化后仍达5倍,单价超50美元/L),进一 步地,需对服务器进行专门改造以适应浸没环境,部分硬件如光纤光模块可能因浸没失效,通用性受限;最后,含全氟和多氟烷基物质(PFAS)成分的冷却液(如3M Novec)具有环境持久性和生物毒性,维护过程中释放的PFAS蒸气亦会增加环境监管风险,对可持续性提出严峻考验。表1给出了相变冷板式液冷和相变浸没式液冷的主要技术参数对比。

2.2 当前项目及试点应用情况
相变冷板式液冷
多家大型服务器制造商和数据中心运营商已在高性能计算(HPC)和人工智能(AI)训练服务器中试点部署相变冷板液冷——尤其是在热流密度超过300 W/cm²的场景中。该技术虽然已进入商业化放量阶段,但仍处于产业链完善和成本优化阶段。相关厂商有ZutaCore、Accelsius、Celestica等。 其中,ZutaCore的方案已获得英伟达的认可,用于未来高热设计功耗(TDP)(如1 200 W)加速器的冷却,在高密度计算场景中展现出较大市场潜力。
相变浸没式液冷 
在相变浸没式液冷方案方面,已有厂商提供方案,并开展试点部署和应用研究。LiquidStack的DataTank™系统提供 252 kW制冷功率,应用于AI和HPC场景,局部电能利用效率(pPUE)低至1.03,显著降低能耗。Wiwynn的冷却方案针对AI和机器学习,支持高密度GPU部署,减少风扇和空调能耗。GIGABYTE与Allied Control针对HPC和边缘计算提 供相变液冷解决方案,着重宣传非可燃冷却液和低能耗。中科曙光的相变浸没式液冷技术已实现大规模商用,其相关产品广泛应用于数据中心和高性能计算场景中。例如,中科曙光在2019年实现了全球首个大规模浸没相变液冷项目的商业化落地。此外,中科曙光还推出了刀片式浸没相变液冷系统,这种系统兼具运维便捷性和高性能。三 、相变浸没式液冷系统架构
根据服务器的排列方式,相变浸没式液冷主要分为卧式架构和立式架构。本文将对这两种架构的技术方案、工作原理进行介绍。典型的卧式液冷架构(如图2所示)采用服务器整机或多个节点水平浸没于大型密封罐体中的设计,罐体底部为液态冷却液区域,顶部为气态区域。
卧式液冷架构工作原理为: 冷却液吸收设备热量汽化后,蒸汽上升至顶部冷凝器冷却为液态,依靠重力自然回流至底部,全程依赖自然对流与重力循环,无需额外泵送系统。该架构技术优势显著,一方面通过相变潜热实现高热流密度设备的散热需求,另一方面系统结构简洁且可沿用成熟的单相冷板式冷却液分配单元CDU架构方案,部署便捷。卧式架构面临的技术挑战同样突出:设备维护需开启罐体,这容易导致冷却液挥发损耗;大型罐体体积庞大,占用数据中心空间较大;需要对服务器进 行定制化设计,以适配液冷环境需求。虽然理论上卧式液冷架构能实现100%液冷散热,但是冷却液用量较高且流向控制精度不足,难以精准覆盖核心发热部件,从而显著影响散热效率。典型的立式浸没式液冷架构(如图3所示)采用模块化设计,每个服务器节点独立封装于密封壳体内形成浸没腔体。其工作原理基于相变循环:节点内部冷却液吸收热量汽化后,蒸汽传输至冷凝器冷却液化,随后回流至腔体,形成封闭的冷却液循环系统。
该架构具有多项技术优势:模块化设计支持热插拔维护,适配标准化服务器且部署灵活;通过相变潜热实现高效散热,同时密封结构有效降低冷却液泄漏险,提升了环境友好性。然而,其技术挑战亦不容忽视: 一方面,模块化设计虽提升灵活性,但增加了系统的复杂性,对密封性、接口稳定性及控制器可靠性要求极高;另一方面,初期建设与维护成本显著高于卧式方案,且需选用低沸点、环保型冷却液,导致选型范围受限,这可能制约其在特定场景下的应用扩展。
四、相变浸没液冷技术的难点
相变浸没式立式架构利用液体的沸腾相变可实现极高的换热系数和功率密度,理论上在蒸发温度50℃左右、芯片 温度不变的情况下,可支持单机架240 kW的散热。但在工程化实现中,需精准控制系统干度(即蒸汽质量分数),以避免小干度引发储液罐偏小、泵入口缺液气蚀,或过大干度导致芯片过热的情况;同时需通过冷凝温度控制稳固系统压力和蒸发温度,以保证系统平稳运行。在相变浸没式液冷中,干度控制至关重要,因为它直接影响冷却液的循环流量与系统散热可靠性。相变浸没式循环流量的简化公式如公式(1)所示:
干度过低(蒸气质量不足)会导致液相占比过高,可能引发储液罐设计容量不足、泵入口液位下降甚至气蚀风险, 严重时会造成泵路损坏;而干度过高(蒸气质量过剩)则会减少液相循环量,使热负荷集中于芯片表面,存在触发临界热流密度(CHF)导致局部过热或失效的隐患。针对上述问题,首先需要在液相入口及气液混合出口部署电容式或热敏式传感器,结合可编程逻辑控制器(PLC)实时调控补液阀与假蒸气回流阀,实现干度闭环控制;同时需要优化系统设计,设置10 cm以上的自由气相空间,降低气泡夹带损失并为蒸气分离提供缓冲;进一步地,集成可再生干燥剂或膜分离脱气装置,周期性清除头部空间微量水分,维持冷却液干度稳定性,从而保障系统高效、安全运行。在相变浸没液冷系统设计中,温度和系统稳定性的控制与饱和蒸气压-饱和温度的耦合关系密切 (如图4所示):
系统压力由冷凝器性能主导,若冷凝温度过高会显著提升饱和压力,导致蒸发温度升高(Tevap =Tcond +ΔT),进而推高芯片工作温度与系统整体压力。为优化热力循环,首先可采用大面积低压降的增强型管壳或板式换热器来增强冷凝效率,保证与冷却水的的温差≤5 ℃,并通过降低冷凝温度实现系统压力与蒸发温度的连锁下降,最终降低芯片温度;其次通过控制变频冷却水泵与温控阀,根据实时热负载调节冷却水流量,使冷凝温度平滑响应功率变化;最后通过压力安全阀与蒸气回流节流阀联动控制,在过压时自 动泄压并补偿液相,确保系统干度稳定于设计范围,避免极端工况下的热失控风险。