微软,用沸腾效应为数据中心服务器中散热

发布时间:2023-06-02      浏览量: 423

在哥伦比亚河东岸的这个数据中心,微软员工之间发送的电子邮件和其他通信实际上正在使装有计算机服务器的钢制储罐内的液体沸腾。

与水不同,沙发形水箱内的液体对电子设备无害,其沸点设计为华氏 122 度,比水的沸点低 90 度。

服务器正在做的工作产生的沸腾效应将热量从工作的计算机处理器中带走。低温沸腾使服务器能够以全功率连续运行,而不会因过热而发生故障。

在水箱内部,从沸腾的液体中升起的蒸汽接触到水箱盖中的冷却冷凝器,这导致蒸汽变成液体并雨水回到浸没的服务器上,形成一个闭环冷却系统。

“我们是第一家在生产环境中运行两相浸入式冷却的云提供商,”位于华盛顿州雷德蒙德的微软数据中心高级开发团队的首席硬件工程师 Husam Alissa 说。

两名男子将手伸入浸入式冷却槽中处理服务器刀片

Azure 的首席软件工程师 Ioannis Manousakis(左)和 Microsoft 数据中心高级开发团队的首席硬件工程师 Husam Alissa(右)正在检查 Microsoft 数据中心的两相浸入式冷却槽的内部。Gene Twedt 为微软拍摄的照片。

数据中心的摩尔定律

两相浸入式冷却的生产环境部署是微软长期计划的下一步,目的是在风冷计算机芯片技术的可靠进步放缓之际满足对更快、更强大的数据中心计算机的需求。

几十年来,芯片的进步源于在相同尺寸的芯片上封装更多晶体管的能力,在不增加电力需求的情况下,每两年计算机处理器的速度大约翻一番。

这种倍增现象被称为摩尔定律,以英特尔联合创始人戈登摩尔命名,他在 1965 年观察到这一趋势并预测它至少会持续十年。它一直持续到 2010 年代,现在开始放缓。

那是因为晶体管宽度已经缩小到原子尺度并且正在达到物理极限。Alissa 指出,与此同时,人工智能等高性能应用对更快的计算机处理器的需求也在加速增长。

为了满足对性能的需求,计算行业已经转向能够处理更多电力的芯片架构。例如,中央处理器或 CPU 已从每个芯片的 150 瓦增加到超过 300 瓦。图形处理单元或 GPU 已增加到每个芯片 700 多瓦。

通过这些处理器的电能越多,芯片就会变得越热。增加的热量增加了冷却要求,以防止芯片发生故障。

“空气冷却是不够的,”微软位于雷德蒙德的数据中心高级开发小组的杰出工程师兼副总裁 Christian Belady 说。“这就是促使我们采用浸入式冷却的原因,我们可以在其中直接将芯片表面煮沸。”

他指出,液体中的传热效率比空气高几个数量级。

更重要的是,他补充说,转向液体冷却给整个数据中心带来了类似摩尔定律的思维方式。

“液体冷却使我们能够变得更密集,从而在数据中心级别延续摩尔定律趋势,”他说。

Christian Belady 站在两相浸入式冷却槽前

微软数据中心高级开发组的杰出工程师兼副总裁克里斯蒂安·贝拉迪 (Christian Belady) 站在微软数据中心的两相浸入式冷却槽旁边。Gene Twedt 为微软拍摄的照片。

从加密货币矿工那里吸取的教训

Belady 指出,液体冷却是一项成熟的技术。今天路上的大多数汽车都依靠它来防止发动机过热。包括微软在内的几家科技公司正在试验冷板技术,其中液体通过金属板通过管道输送,以冷却服务器。

加密货币行业的参与者开创了用于计算设备的液体浸入式冷却,用它来冷却记录数字货币交易的芯片。

微软研究了液体浸入作为高性能计算应用程序(如 AI)的冷却解决方案。除其他事项外,调查显示,两相浸入式冷却可将任何给定服务器的功耗降低 5% 至 15%。

这些发现促使微软团队与数据中心 IT 系统制造商和设计师Wiwynn合作,开发一种两相浸入式冷却解决方案。第一个解决方案现在正在昆西的微软数据中心运行。

那个长沙发形的水箱里装满了 3M 的工程流体。3M 的液体冷却液具有介电特性,使其成为有效的绝缘体,使服务器在完全浸入液体中时仍能正常运行。

微软技术研究员兼公司副总裁兼 Azure 计算首席架构师 Marcus Fontoura 表示,这种向两相液浸式冷却的转变可以提高云资源高效管理的灵活性。

例如,管理云资源的软件可以将数据中心计算需求的突然激增分配给液冷罐中的服务器。这是因为这些服务器可以在更高的功率下运行——这一过程称为超频——而没有过热的风险。

“例如,我们知道使用 Teams 时,当你到达 1 点或 2 点时,会出现一个巨大的峰值,因为人们同时参加会议,”Fontoura 说。“浸入式冷却让我们更灵活地处理这些突发性工作负载。”

服务器刀片浸入冒泡的两相浸入式冷却槽中

沸腾的液体带走了 Microsoft 数据中心的计算机服务器产生的热量。微软是第一家在生产环境中运行两相浸入式冷却的云提供商。Gene Twedt 为微软拍摄的照片。

可持续数据中心

Fontoura 补充说,将两相浸入式冷却服务器添加到可用计算资源的组合中,还可以让机器学习软件更有效地管理整个数据中心的这些资源,从电源和冷却到维护技术人员。

“我们不仅会对效率产生巨大影响,还会对可持续性产生巨大影响,因为你要确保没有浪费,我们部署的每一台 IT 设备都将得到充分利用,”他说。

液体冷却也是一种无水技术,这将帮助微软实现其在本十年末补充的水量超过消耗量的承诺。

穿过储罐并使蒸汽冷凝的冷却盘管连接到一个单独的闭环系统,该系统使用流体将热量从储罐传递到储罐容器外部的干式冷却器。Alissa 解释说,由于这些盘管中的流体总是比周围空气暖和,因此无需喷水来调节空气以进行蒸发冷却。

微软和基础设施行业合作伙伴也在研究如何以减少液体流失的方式运行储罐,并且对环境几乎没有影响。

Azure 的首席软件工程师 Ioannis Manousakis 说:“如果做得好,两相浸入式冷却将同时满足我们所有的成本、可靠性和性能要求,而与空气冷却相比,能源消耗基本上是一小部分。”

“我们把大海带到了服务器”

微软对两相浸入式冷却的调查是该公司多管齐下战略的一部分,旨在使数据中心的建设、运营和维护更具可持续性和效率。

例如,数据中心高级开发团队也在探索使用氢燃料电池代替柴油发电机在数据中心进行备用发电的可能性。

液体冷却项目类似于微软的 Project Natick,它正在探索水下数据中心的潜力,这些数据中心可以快速部署,并且可以在密封在类似潜艇的管道内的海床上运行多年,无需人工进行任何现场维护。

水下数据中心没有使用工程流体,而是充满了干燥的氮气。服务器由风扇和热交换管道系统冷却,该系统通过密封管泵送管道海水。

Project Natick 的一项重要发现是,海底服务器的故障率是陆地数据中心副本服务器的八分之一。初步分析表明,缺乏湿度和氧气的腐蚀作用是服务器在水下表现出色的主要原因。

Alissa 预计浸液槽内的服务器将体验到类似的卓越性能。“我们把大海带到了服务器,而不是把数据中心放在海底,”他说。

Ioannis Manousakis 从两相浸入式冷却槽中取出服务器刀片

Azure 的首席软件工程师 Ioannis Manousakis 从 Microsoft 数据中心的两相浸入式冷却槽中取出服务器刀片。Gene Twedt 为微软拍摄的照片。

未来

如果浸没槽中的服务器故障率如预期的那样降低,Microsoft 可能会转向一种模型,在该模型中,组件出现故障时不会立即更换。这将限制蒸汽损失,并允许在偏远、难以维修的地点部署储罐。

更重要的是,Belady 指出,在水箱中密集封装服务器的能力支持重新设想的服务器架构,该架构针对低延迟、高性能应用程序以及低维护操作进行了优化。

例如,这样的坦克可以部署在城市中心的 5G 蜂窝通信塔下,用于自动驾驶汽车等应用。

目前,微软在一个超大规模数据中心拥有一个运行工作负载的坦克。在接下来的几个月里,微软团队将进行一系列测试,以证明坦克和技术的可行性。

“第一步是让人们对这个概念感到满意,并展示我们可以运行生产工作负载,”Belady 说。

从设计到生产

灏域为您提供

全产业链解决方案

开始我们的合作

+86 18600523371