Intelligence de données générative

TensorWave, une startup du cloud IA, parie qu'AMD peut battre Nvidia

Date :

Des opérateurs cloud spécialisés, capables d'exécuter des GPU chauds et gourmands en énergie et d'autres infrastructures d'IA, font leur apparition, et tandis que certains de ces acteurs comme CoreWeave, Lambda ou Voltage Park ont ​​construit leurs clusters en utilisant des dizaines de milliers de GPU Nvidia, d'autres se tournent vers AMD à la place.

Un exemple de ce dernier est la startup TensorWave, qui a commencé plus tôt ce mois-ci à accumuler des systèmes alimentés par l'Instinct MI300X d'AMD, dont elle prévoit de louer les puces à une fraction du coût facturé pour accéder aux accélérateurs Nvidia.

Jeff Tatarchuk, cofondateur de TensorWave, estime que les derniers accélérateurs d'AMD possèdent de nombreuses qualités. Pour commencer, vous pouvez les acheter. TensorWave a obtenu une large allocation de pièces.

D’ici fin 2024, TensorWave vise à déployer 20,000 300 accélérateurs MIXNUMXX dans deux installations et prévoit de mettre en ligne des systèmes supplémentaires refroidis par liquide l’année prochaine.

Le dernier silicium IA d'AMD est également plus rapide que le très convoité H100 de Nvidia. "Juste en termes de spécifications brutes, le MI300x domine le H100", a déclaré Tatarchuk.

Lancé lors de l'événement Advancing AI d'AMD en décembre, le MI300X est l'accélérateur le plus avancé de la société de conception de puces à ce jour. Le Puce de 750 W utilise une combinaison d'emballages avancés pour assembler 12 chipsets - 20 si vous comptez les modules HBM3 - dans un seul GPU prétendument 32 % plus rapide que le H100 de Nvidia.

En plus de performances en virgule flottante plus élevées, la puce dispose également d'une plus grande mémoire HBM192 de 3 Go, capable de fournir 5.3 To/s de bande passante contre les 80 Go et 3.35 To/s revendiqués par le H100.

Comme nous l'avons vu avec le H200 de Nvidia – une version du H100 renforcée par l'inclusion du HBM3e – la bande passante mémoire est un contributeur majeur aux performances de l'IA, en particulier dans l'inférence sur de grands modèles de langage.

Tout comme les conceptions HGX de Nvidia et OAM d'Intel, les configurations standard du dernier GPU d'AMD nécessitent huit accélérateurs par nœud.

C'est la configuration que les gens de TensorWave sont en train de mettre en rack et d'empiler.

« Nous en avons des centaines maintenant et des milliers dans les mois à venir », a déclaré Tatarchuk.

Les accumuler

Sur une photo posté sur les réseaux sociaux, l'équipe TensorWave a montré ce qui semblait être trois 8U Supermicro AS-8125GS-TNMR2 les systèmes accumulé. Cela nous a amené à nous demander si les racks de TensorWave étaient limités en termes de puissance ou thermiquement. Après tout, il n'est pas rare que ces systèmes consomment plus de 10 kW lorsqu'ils sont complètement chargés.

Il s'avère que les gens de TensorWave n'avaient pas fini d'installer les machines et que la société vise quatre nœuds d'une capacité totale d'environ 40 kW par rack. Ces systèmes seront refroidis à l'aide d'échangeurs de chaleur à porte arrière (RDHx). Comme nous l'avons discuté dans le passé, il s’agissait de radiateurs de la taille d’un rack à travers lesquels s’écoulait de l’eau froide. Lorsque l'air chaud sort d'un serveur conventionnel, il traverse le radiateur qui le refroidit à des niveaux acceptables.

Cette technologie de refroidissement est devenue un produit très prisé parmi les opérateurs de centres de données cherchant à prendre en charge des clusters GPU plus denses et a entraîné certains défis dans la chaîne d'approvisionnement, a déclaré Piotr Tomasik, COO de TensorWave.

« Il y a actuellement de nombreux problèmes de capacité, même dans les équipements auxiliaires autour des centres de données », a-t-il déclaré, faisant spécifiquement référence au RDHx comme un problème. "Nous avons réussi jusqu'à présent et nous étions très optimistes quant à notre capacité à les déployer."

À plus long terme, cependant, TensorWave vise le refroidissement direct sur puce, ce qui peut être difficile à déployer dans des centres de données qui n'ont pas été conçus pour héberger des GPU, a déclaré Tomasik. « Nous sommes ravis de déployer le refroidissement direct des puces au cours du second semestre. Nous pensons que cela sera bien meilleur et plus facile avec la densité.

L'anxiété de performance

Un autre défi est la confiance dans les performances d'AMD. Selon Tatarchuk, bien qu'il y ait beaucoup d'enthousiasme autour du fait qu'AMD propose une alternative à Nvidia, les clients ne sont pas certains qu'ils bénéficieront des mêmes performances. "Il y a aussi beaucoup de 'Nous ne sommes pas sûrs à 100 % si cela va être aussi génial que ce à quoi nous sommes actuellement habitués sur Nvidia'", a-t-il déclaré.

Dans l'intérêt de rendre les systèmes opérationnels le plus rapidement possible, TensorWave lancera ses nœuds MI300X en utilisant RDMA sur Converged Ethernet (RoCE). Ces systèmes nus seront disponibles pour des périodes de location fixes, apparemment pour aussi peu que 1 $/h/GPU.

Mise à l'échelle

Au fil du temps, l’entreprise vise à introduire une couche d’orchestration plus proche du cloud pour le provisionnement des ressources. La mise en œuvre de la technologie FabreX basée sur PCIe 5.0 de GigaIO pour assembler jusqu'à 5,750 XNUMX GPU dans un seul domaine avec plus d'un pétaoctet de mémoire à large bande passante est également à l'ordre du jour.

Ces soi-disant TensorNODE sont basés sur l'architecture SuperNODE de GigaIO. exhibaient l'année dernière, qui a utilisé une paire d'appareils de commutation PCIe pour connecter jusqu'à 32 GPU AMD MI210 ensemble. En théorie, cela devrait permettre à un seul nœud principal de CPU de gérer bien plus que les huit accélérateurs généralement observés dans les nœuds GPU aujourd'hui.

Cette approche diffère de la conception préférée de Nvidia, qui utilise NVLink pour assembler plusieurs superpuces en un seul gros GPU. Alors que NVLink est considérablement plus rapide, atteignant 1.8 To/s de bande passante dans son dernière itération contre seulement 128 Go/s sur PCIe 5.0, il ne prend en charge que les configurations jusqu'à 576 GPU.

TensorWave financera la construction de sa grange en utilisant ses GPU comme garantie pour un important cycle de financement par emprunt, une approche utilisée par d'autres opérateurs de centres de données. La semaine dernière, Lambda révélé il avait obtenu un prêt de 500 millions de dollars pour financer le déploiement de « dizaines de milliers » d'accélérateurs les plus rapides de Nvidia.

Pendant ce temps, CoreWeave, l'un des plus grands fournisseurs de GPU à louer, a pu sécurisé un prêt massif de 2.3 milliards de dollars pour étendre l’empreinte de son centre de données.

"Vous devriez vous attendre à ce que nous ayons le même genre d'annonce ici plus tard cette année", a déclaré Tomasik. ®

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?