生成数据智能

AI 云初创公司 TensorWave 押注 AMD 可以击败 Nvidia

日期:

擅长运行高温且耗电的 GPU 和其他人工智能基础设施的专业云运营商正在兴起,虽然其中一些参与者(如 CoreWeave、Lambda 或Voltage Park)已经使用数万个 Nvidia GPU 构建了自己的集群,但其他参与者正在转向使用而是AMD。

后者的一个例子是 Bit Barn 初创公司 TensorWave,该公司本月早些时候开始部署由 AMD Instinct MI300X 驱动的系统,并计划以访问 Nvidia 加速器费用的一小部分来租赁这些芯片。

TensorWave 联合创始人 Jeff Tatarchuk 认为 AMD 最新的加速器具有许多优良品质。对于初学者来说,您实际上可以购买它们。 TensorWave 已获得大量零件分配。

到 2024 年底,TensorWave 的目标是在两个设施中部署 20,000 个 MI300X 加速器,并计划明年上线更多液冷系统。

AMD 最新的 AI 芯片也比 Nvidia 令人垂涎的 H100 更快。 “仅就原始规格而言,MI300x 优于 H100,”Tatarchuk 说道。

MI300X 于 XNUMX 月在 AMD 的 Advancing AI 活动中推出,是该芯片设计公司迄今为止最先进的加速器。这 750W芯片 使用先进的封装组合将 12 个小芯片(如果算上 HBM20 模块的话就是 3 个)拼凑成一个 GPU,据称比 Nvidia 的 H32 快 100%。

除了更高的浮点性能外,该芯片还拥有更大​​的 192GB HBM3 内存,能够提供 5.3TB/s 的带宽,而 H80 声称的带宽为 3.35GB 和 100TB/s。

正如我们从 Nvidia 的 H200(通过包含 HBM100e 增强的 H3 版本)所看到的那样,内存带宽是 主要贡献者 人工智能性能,特别是在大型语言模型的推理方面。

与 Nvidia 的 HGX 和英特尔的 OAM 设计非常相似,AMD 最新 GPU 的标准配置需要每个节点八个加速器。

这就是 TensorWave 的人员正在忙着整理和堆叠的配置。

塔塔丘克说:“我们现在有数百人加入,未来几个月将有数千人加入。”

把它们堆起来

在一张照片中 发布 TensorWave 团队向社交媒体展示了三个 8U Supermicro AS-8125GS-TNMR2 系统 架起来了。这让我们质疑 TensorWave 的机架是否受到功率或热量限制,毕竟这些系统在满载时拉动超过 10kW 的情况并不罕见。

事实证明,TensorWave 的人员尚未完成机器的安装,该公司的目标是四个节点,每个机架的总容量约为 40kW。这些系统将使用后门热交换器 (RDHx) 进行冷却。正如我们已经 讨论 过去,这些是机架大小的散热器,冷水流经其中。当热空气从传统服务器中排出时,它会穿过散热器,将其冷却到可接受的水平。

TensorWave 首席运营官 Piotr Tomasik 表示,这种冷却技术已成为寻求支持更密集 GPU 集群的数据中心运营商的热门商品,并带来了一些供应链挑战。

他说:“即使是现在数据中心周围的辅助设备,也存在很多容量问题。”他特别指出 RDHx 是一个痛点。 “到目前为止,我们已经取得了成功,我们非常看好我们部署它们的能力。”

然而,从长远来看,TensorWave 的目标是直接芯片冷却,这可能很难部署在不是为容纳 GPU 设计的数据中心中,Tomasik 说。 “我们很高兴能在今年下半年直接部署芯片冷却。我们认为,随着密度的增加,这会变得更好、更容易。”

表现焦虑

另一个挑战是对 AMD 性能的信心。 Tatarchuk 表示,虽然人们对 AMD 提供 Nvidia 的替代品抱有很大热情,但客户并不确定他们是否会享受相同的性能。 “还有很多人说‘我们不能 100% 确定它是否会像我们目前在 Nvidia 上使用的那样出色’,”他说。

为了尽快启动和运行系统,TensorWave 将推出使用基于融合以太网的 RDMA (RoCE) 的 MI300X 节点。这些裸机系统将提供固定租赁期,显然价格低至 1 美元/小时/GPU。

扩大

随着时间的推移,该公司的目标是引入一个更像云的编排层来配置资源。实施基于 GigaIO PCIe 5.0 的 FabreX 技术,将单个域中多达 5,750 个 GPU 与超过 XNUMX PB 的高带宽内存拼接在一起,也已提上日程。

这些所谓的 TensorNODE 是基于 GigaIO 的 SuperNODE 架构的 炫耀 去年,该公司使用一对 P​​CIe 交换机设备将多达 32 个 AMD MI210 GPU 连接在一起。理论上,这应该允许单个 CPU 头节点处理远远超过当今 GPU 节点中常见的八个加速器的地址。

这种方法不同于 Nvidia 的首选设计,后者使用 NVLink 将多个超级芯片拼接成一个大 GPU。虽然 NVLink 的速度要快得多,其带宽达到 1.8TB/s 最新迭代 与 PCIe 128 上的仅 5.0GB/s 相比,它仅支持最多 576 个 GPU 的配置。

TensorWave 将使用其 GPU 作为一大轮债务融资的抵押品,为其比特仓建设提供资金,其他数据中心运营商也采用这种方法。就在上周,拉姆达 发现 它获得了 500 亿美元的贷款,用于资助“数以万计”的 Nvidia 最快加速器的部署。

与此同时,最大的 GPU 租赁提供商之一 CoreWeave 能够 安全 一笔 2.3 亿美元的巨额贷款,用于扩大其数据中心的覆盖范围。

托马西克说:“你会,你应该期望我们今年晚些时候会在这里发布同样的公告。” ®

现货图片

最新情报

现货图片