AI 云初创公司 TensorWave 押注 AMD 可以击败 Nvidia

擅长运行高温且耗电的 GPU 和其他人工智能基础设施的专业云运营商正在兴起，虽然其中一些参与者（如 CoreWeave、Lambda 或Voltage Park）已经使用数万个 Nvidia GPU 构建了自己的集群，但其他参与者正在转向使用而是AMD。

后者的一个例子是 Bit Barn 初创公司 TensorWave，该公司本月早些时候开始部署由 AMD Instinct MI300X 驱动的系统，并计划以访问 Nvidia 加速器费用的一小部分来租赁这些芯片。

TensorWave 联合创始人 Jeff Tatarchuk 认为 AMD 最新的加速器具有许多优良品质。对于初学者来说，您实际上可以购买它们。 TensorWave 已获得大量零件分配。

到 2024 年底，TensorWave 的目标是在两个设施中部署 20,000 个 MI300X 加速器，并计划明年上线更多液冷系统。

AMD 最新的 AI 芯片也比 Nvidia 令人垂涎的 H100 更快。 “仅就原始规格而言，MI300x 优于 H100，”Tatarchuk 说道。

MI300X 于 XNUMX 月在 AMD 的 Advancing AI 活动中推出，是该芯片设计公司迄今为止最先进的加速器。这 750W芯片使用先进的封装组合将 12 个小芯片（如果算上 HBM20 模块的话就是 3 个）拼凑成一个 GPU，据称比 Nvidia 的 H32 快 100%。

除了更高的浮点性能外，该芯片还拥有更大的 192GB HBM3 内存，能够提供 5.3TB/s 的带宽，而 H80 声称的带宽为 3.35GB 和 100TB/s。

正如我们从 Nvidia 的 H200（通过包含 HBM100e 增强的 H3 版本）所看到的那样，内存带宽是主要贡献者人工智能性能，特别是在大型语言模型的推理方面。

与 Nvidia 的 HGX 和英特尔的 OAM 设计非常相似，AMD 最新 GPU 的标准配置需要每个节点八个加速器。

这就是 TensorWave 的人员正在忙着整理和堆叠的配置。

塔塔丘克说：“我们现在有数百人加入，未来几个月将有数千人加入。”

在一张照片中发布 TensorWave 团队向社交媒体展示了三个 8U Supermicro AS-8125GS-TNMR2 系统架起来了。这让我们质疑 TensorWave 的机架是否受到功率或热量限制，毕竟这些系统在满载时拉动超过 10kW 的情况并不罕见。

事实证明，TensorWave 的人员尚未完成机器的安装，该公司的目标是四个节点，每个机架的总容量约为 40kW。这些系统将使用后门热交换器 (RDHx) 进行冷却。正如我们已经讨论过去，这些是机架大小的散热器，冷水流经其中。当热空气从传统服务器中排出时，它会穿过散热器，将其冷却到可接受的水平。

TensorWave 首席运营官 Piotr Tomasik 表示，这种冷却技术已成为寻求支持更密集 GPU 集群的数据中心运营商的热门商品，并带来了一些供应链挑战。

他说：“即使是现在数据中心周围的辅助设备，也存在很多容量问题。”他特别指出 RDHx 是一个痛点。 “到目前为止，我们已经取得了成功，我们非常看好我们部署它们的能力。”

然而，从长远来看，TensorWave 的目标是直接芯片冷却，这可能很难部署在不是为容纳 GPU 设计的数据中心中，Tomasik 说。 “我们很高兴能在今年下半年直接部署芯片冷却。我们认为，随着密度的增加，这会变得更好、更容易。”

另一个挑战是对 AMD 性能的信心。 Tatarchuk 表示，虽然人们对 AMD 提供 Nvidia 的替代品抱有很大热情，但客户并不确定他们是否会享受相同的性能。 “还有很多人说‘我们不能 100% 确定它是否会像我们目前在 Nvidia 上使用的那样出色’，”他说。

为了尽快启动和运行系统，TensorWave 将推出使用基于融合以太网的 RDMA (RoCE) 的 MI300X 节点。这些裸机系统将提供固定租赁期，显然价格低至 1 美元/小时/GPU。

随着时间的推移，该公司的目标是引入一个更像云的编排层来配置资源。实施基于 GigaIO PCIe 5.0 的 FabreX 技术，将单个域中多达 5,750 个 GPU 与超过 XNUMX PB 的高带宽内存拼接在一起，也已提上日程。

这些所谓的 TensorNODE 是基于 GigaIO 的 SuperNODE 架构的炫耀去年，该公司使用一对 PCIe 交换机设备将多达 32 个 AMD MI210 GPU 连接在一起。理论上，这应该允许单个 CPU 头节点处理远远超过当今 GPU 节点中常见的八个加速器的地址。

这种方法不同于 Nvidia 的首选设计，后者使用 NVLink 将多个超级芯片拼接成一个大 GPU。虽然 NVLink 的速度要快得多，其带宽达到 1.8TB/s 最新迭代与 PCIe 128 上的仅 5.0GB/s 相比，它仅支持最多 576 个 GPU 的配置。

TensorWave 将使用其 GPU 作为一大轮债务融资的抵押品，为其比特仓建设提供资金，其他数据中心运营商也采用这种方法。就在上周，拉姆达发现它获得了 500 亿美元的贷款，用于资助“数以万计”的 Nvidia 最快加速器的部署。

与此同时，最大的 GPU 租赁提供商之一 CoreWeave 能够安全一笔 2.3 亿美元的巨额贷款，用于扩大其数据中心的覆盖范围。

托马西克说：“你会，你应该期望我们今年晚些时候会在这里发布同样的公告。” ®

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://go.theregister.com/feed/www.theregister.com/2024/04/16/amd_tensorwave_mi300x/

生成数据智能