NVIDIA必备的 H100 AI 芯片使其成为一家价值数万亿美元的公司,其价值可能超过 Alphabet 和亚马逊,而竞争对手一直在奋力追赶。但也许NVIDIA即将通过新的 Blackwell B200 GPU 和 GB200“超级芯片”扩大其领先地位。
NVIDIA 表示,新的 B200 GPU 通过其 2080 亿个晶体管提供高达 20 petaflops的 FP4 马力。此外,它还表示,将两个 GPU 与单个 Grace CPU 结合在一起的 GB200 可以为 LLM 推理工作负载提供 30 倍的性能,同时还可能大幅提高效率。 NVIDIA 表示,与 H100 相比,它“成本和能耗降低了 25 倍”,不过成本还存在疑问——NVIDIA首席执行官表示,每个 GPU 的成本可能在 30,000 美元到 40,000 美元之间。
NVIDIA 声称,训练一个 1.8 万亿参数模型之前需要 8,000 个 Hopper GPU 和 15 兆瓦的功率。如今,NVIDIA 首席执行官表示 2,000 个 Blackwell GPU 就可以做到这一点,而功耗仅为 4 兆瓦。
在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,NVIDIA 表示 GB200 的性能是 H100 的 7 倍,而 NVIDIA 表示它提供的训练速度是 H100 的四倍。
NVIDIA 告诉记者,其中一个关键改进是第二代 Transformer 引擎,它通过为每个神经元使用 4 位而不是 8 位(因此,我之前提到的 FP4 的 20 petaflops),使计算、带宽和模型大小加倍。仅当您连接大量此类 GPU 时,才会出现第二个关键区别:下一代 NVLink 交换机可让 576 个 GPU 相互通信,具有每秒 1.8 TB 的双向带宽。
NVIDIA 表示,这需要 Nvidia 打造一款全新的网络交换芯片,该芯片拥有 500 亿个晶体管和一些自己的板载计算能力:3.6 teraflops 的 FP8。
NVIDIA 表示将通过 Blackwell 添加 FP4 和 FP6。 图片:英伟达
NVIDIA 表示,此前,仅由 16 个 GPU 组成的集群将花费 60% 的时间相互通信,而只有 40% 的时间用于实际计算。
当然,NVIDIA 指望各公司购买大量这些 GPU,并将它们封装在更大的设计中,例如 GB200 NVL72,它将 36 个 CPU 和 72 个 GPU 插入一个液冷机架中,总共 720 petaflops。 AI 训练性能或 1,440 petaflops(又名 1.4 exaflops)的推理能力。它内部有近两英里长的电缆,共有 5,000 根单独的电缆。
机架中的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机,每个机架有 18 个前者和 9 个后者。 NVIDIA 表示,其中一个机架总共可以支持 27 万亿个参数模型。据传 GPT-4 大约有 1.7 万亿参数模型。
该公司表示,亚马逊、谷歌、微软和甲骨文都已经计划在其云服务产品中提供 NVL72 机架,但尚不清楚他们购买了多少个。
当然,NVIDIA 也很乐意为公司提供其余的解决方案。这是适用于 DGX GB200 的 DGX Superpod,它将八个系统合二为一,总共 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算。
图片:英伟达
NVIDIA 表示,其系统可以扩展到数万个 GB200 超级芯片,并通过新的 Quantum-X800 InfiniBand(最多 144 个连接)或 Spectrum-X800 以太网(最多 64 个连接)与 800Gbps 网络连接在一起。
我们预计今天不会听到任何有关新游戏 GPU 的消息,因为该消息来自 Nvidia 的 GPU 技术会议,该会议通常几乎完全专注于 GPU 计算和人工智能,而不是游戏。但 Blackwell GPU 架构也可能为未来的 RTX 50 系列桌面显卡提供支持。
从设计到生产
灏域为您提供
全产业链解决方案
开始我们的合作
+86 18600523371