一文看懂：什么是GPU服务器 - 结构设计-散热设计-防水设计-工程验证-生产制造

一、什么是GPU服务器？

‌GPU服务器是一种配置了高性能图形处理器（GPU）的服务器，主要用于：提供高性能计算、深度学习、科学计算等多种场景的计算服务，用于处理大规模并行计算任务。‌说通俗一点就是装有GPU卡的服务器，不是那些有GPU显卡的个人电脑、或含有GPU芯片的手机这些。

与传统的通用中央处理器（CPU）服务器相比，GPU服务器在处理并行密集型计算任务时具有显著优势。GPU服务器通过将应用程序中计算密集的任务转移到GPU上，并释放出CPU的工作负荷，从而能够大幅提升应用程序的运行速度，以及数据处理效率。‌这对于需要处理大量数据的场景尤为重要，如视频编解码、深度学习、科学计算等。在这些场景中，GPU服务器能够提供比传统CPU服务器更高的计算性能和更低的能耗。

二、GPU服务器的分类

GPU服务器因为接口方式的不一样，分为PCIE机型和Nvlink机型，不同的机型代表了GPU芯片之间的互联方式，也代表了GPU的通信带宽能力，相关的参数比较前面的文章也有详细的介绍，详见：GPU的通信带宽-运力。

1、PCIe机型

即通过服务器上的PCIE卡槽来安装GPU卡的，GPU卡与GPU卡之间通过PCIE总线互连，PCIE是PCI-Express (Peripheral Component Interconnect Express)的简称，它是一种内部总线，也是一种计算机扩展总线标准，是一种高速串行、高带宽扩展总线，通常用于主板上连接显卡、固态硬盘、各类采集卡和无线网卡等外设。PCIE不仅限用于主板上，在很多芯片与芯片之间的互连也采用的是PCIE的总线。

随着技术的不断的发展迭代，PCIe技术从原先的PCIe 1.0，逐渐发展到了PCIe 7.0。传输速率也从PCIe 1.0每秒 2.5Gbps，逐渐发展到PCIe 2.0每秒5Gbps，PCIe,3.0每秒8Gbps（因为编码的原因，所以2.0到3.0并不是数字看到的2倍关系），PCIe 4.0每秒16Gbps，PCIe 5.0每秒32Gbps，PCIe 6.0每秒64Gbps，PCIe 7.0每秒128Gbps。每一代 PCIe 的速度都是上代的2倍。

由于受限于PCIE的带宽上限，GPU卡与卡双向互联带宽比较低（目前最高的128GB/s），因此常见于早期的英伟达服务器（4090、L40、A100等），以及国产GPU服务器。

组装好了，有点像下面这个样子（以下是8张GPU卡的样子）：

2、Nvlink机型/SXM机型

市面上也叫SXM（Scalable eXtensible Module）机型，它是英伟达专为高性能GPU卡间互联而设计的解决方案，它采用了铺设在电路板上的专用协议，可以简单理解GPU与我们常看到的CPU芯片一样安装方式，直接铺设在电路板上面。GPU卡与GPU卡之间通过Nvlink链路来互连。

NVLink是由英伟达开发的一种高速互连技术，专为高性能计算（HPC）和人工智能（AI）应用设计，旨在加快 CPU 与 GPU、GPU 与 GPU 之间的数据传输速度，提高系统性能。

Nvlink技术随着GPU架构的演进不断发展，从P100的Nvlink1到H100的Nvlink4，再到GB200的Nvlink5。Nvlink 1.0、Nvlink 2.0、Nvlink 3.0、Nvlink 4.0和Nvlink5之间的关键区别在于连接的链路数量，包括GPU直连数量，最终表现出不同的带宽和性能。

由于Nvlink是英伟达的独家专利，因此SXM机型也就只有英伟达有了。Nvlink技术相比PCIE带宽更高，因此比较适用于大模型训练场景。

SXM机型在英伟达服务器里面，通常通过SXM模组来把GPU芯片集成在一起，里面包含了GPU芯片、显存、NVSwitch、电源接口、风扇等等。

三、HGX和DGX服务器

这里说的HGX和DGX都是指的英伟达GPU芯片的服务器类型（国产服务器中没有这种说法），说的比较通俗易懂一点就是：HGX为组装设备（英伟达只提供了SXM GPU模组，其他都由不同公司组装而成），DGX是原装完整设备（即服务器里面的所有配件都是英伟达原厂生产或组装的）。

1、HGX服务器

HGX服务器，理解就是组装服务器，一般是英伟达提供GPU模组（如上的图SXM模组），其他厂商（如超微、超聚变、宁畅、浪潮、华硕、英业达等）根据它的接口类型，开发出适配主板，然后再配置不同品牌型号的CPU、内存、硬盘、网卡、电源、机箱等，形成一个完整的GPU服务器，这个服务器集成器就叫“机头”。

下图就是国内某国产服务器的机型爆炸图，英伟达HGX模组就只有图14的一部分，其他都来自其他厂商的部件。

英伟达推出HGX的最主要目的，是方便OEM厂商集成，可以灵活地组装在不同配置和型号的服务器里面。

2、DGX服务器

DGX指的就是完全英伟达原厂品牌的GPU服务器，除了包括最核的SXM模组外，配套了服务器该有的机箱、主板、电源、CPU、内存、硬盘、网卡等部件，以及软件系统，通过软硬件完整封装，形成无法定制的标准化一体机。

DGX作为一个完整的一体机，强调简易性和便捷性，可以快速部署和运行，适合需要即用型解决方案的大型企业。DGX通过如DGX SuperPOD这样的解决方案提供了很好的可扩展性，比如Nvidia最新发布的DGX GB200 SuperPod，由8个NVL72组成，共576个B200 GPU。

英伟达DGX推出的最主要目的，是卖给不差钱的客户，提高客单价和利润率，当然英伟达还会提供一整套的售后服务和保障。

3、HGX和DGX服务器的区别

1）硬件配置方面

HGX是一个使用英伟达提供的计算模组而组成的服务器；

DGX是一个英伟达提供的一个完整的主机服务器。

2）软件配置

HGX操作系统和软件可以根据用户习惯，自行安装；

DGX操作系统和软件一般是出厂后就安装好了，用户打开就可以使用，当然英伟达也会提供相应的软件服务。

3）定制性

HGX只是英伟达提供的一个计算模组，用户根据计算需求添加或删除GPU数量，包括配置不同型号性能的CPU、硬盘、内存等；

DGX为一体机，不可随意定制，可定制性不如HGX，软硬件配置是固定的。

4）目标用户和应用场景

HGX主要面向需要灵活且可扩展的平台来满足高性能计算需求的研究人员和开发人员。适用于云数据中心、高性能计算、大规模人工智能研发、可定制基础设施等应用。

DGX专为需要强大、即用型AI解决方案的企业而设计。除HGX包含的目标外，还非常适合人工智能和深度学习开发、边缘计算、医疗保健和医学研究以及内容创建和媒体等应用。

5）运算性能

相同GPU数量下，DGX相比HGX运算能力会更强。

6）成本

HGX的成本主要来自SXM GPU模组的成本，受美国高端芯片的制裁和市场出货量的影响较大，价格也波动较大（例如：H100模组，从2024年初的300万元/套，一路跌到了年末的200万元/套）。当然相对DGX还是便宜一点。

DGX价格相对要高一些，特别是一些高端机型受美国制裁，基本也买不到，因此在国内使用DGX服务器的企业几乎没有几家，比较少见。