जनरेटिव डेटा इंटेलिजेंस

एआई क्लाउड स्टार्टअप टेन्सोरवेव का दावा है कि एएमडी एनवीडिया को हरा सकता है

दिनांक:

गर्म और बिजली की खपत करने वाले जीपीयू और अन्य एआई बुनियादी ढांचे को चलाने में कुशल विशेषज्ञ क्लाउड ऑपरेटर उभर रहे हैं, और जबकि इनमें से कुछ खिलाड़ियों जैसे कोरवीव, लैम्ब्डा, या वोल्टेज पार्क ने हजारों एनवीडिया जीपीयू का उपयोग करके अपने क्लस्टर बनाए हैं, अन्य लोग इसकी ओर रुख कर रहे हैं। इसके बजाय एएमडी।

उत्तरार्द्ध का एक उदाहरण बिट बार्न स्टार्टअप टेन्सोरवेव है जिसने इस महीने की शुरुआत में एएमडी के इंस्टिंक्ट एमआई 300 एक्स द्वारा संचालित सिस्टम को रैक करना शुरू कर दिया था, जो कि एनवीडिया एक्सेलेरेटर तक पहुंचने के लिए चार्ज की गई लागत के एक अंश पर चिप्स को पट्टे पर देने की योजना बना रहा है।

टेन्सोरवेव के सह-संस्थापक जेफ टाटार्चुक का मानना ​​है कि एएमडी के नवीनतम एक्सेलेरेटर में कई बेहतरीन गुण हैं। शुरुआत के लिए, आप वास्तव में उन्हें खरीद सकते हैं। TensorWave ने भागों का एक बड़ा आवंटन सुरक्षित कर लिया है।

2024 के अंत तक, TensorWave का लक्ष्य दो सुविधाओं में 20,000 MI300X एक्सेलेरेटर तैनात करना है, और अगले साल अतिरिक्त लिक्विड-कूल्ड सिस्टम ऑनलाइन लाने की योजना है।

एएमडी का नवीनतम एआई सिलिकॉन एनवीडिया के बहुप्रतीक्षित एच100 से भी तेज है। टाटार्चुक ने कहा, "सिर्फ कच्चे स्पेक्स में, MI300x H100 पर हावी है।"

दिसंबर में AMD के एडवांसिंग AI इवेंट में लॉन्च किया गया, MI300X चिप डिजाइन फर्म का अब तक का सबसे उन्नत एक्सेलेरेटर है। 750W चिप 12 चिपलेट्स को एक साथ जोड़ने के लिए उन्नत पैकेजिंग के संयोजन का उपयोग करता है - यदि आप एचबीएम 20 मॉड्यूल की गिनती करते हैं तो 3 - एक एकल जीपीयू में जो एनवीडिया के एच 32 की तुलना में 100 प्रतिशत तेज होने का दावा किया गया है।

उच्च फ़्लोटिंग पॉइंट प्रदर्शन के अलावा, चिप में 192GB की बड़ी HBM3 मेमोरी भी है जो H5.3 द्वारा दावा किए गए 80GB और 3.35TB/s की तुलना में 100TB/s बैंडविड्थ देने में सक्षम है।

जैसा कि हमने एनवीडिया के H200 से देखा है - HBM100e को शामिल करके H3 का एक संस्करण बढ़ाया गया है - मेमोरी बैंडविड्थ एक है प्रमुख योगदान एआई प्रदर्शन के लिए, विशेष रूप से बड़े भाषा मॉडल पर अनुमान लगाने में।

एनवीडिया के एचजीएक्स और इंटेल के ओएएम डिज़ाइन की तरह, एएमडी के नवीनतम जीपीयू के मानक कॉन्फ़िगरेशन के लिए प्रति नोड आठ एक्सेलेरेटर की आवश्यकता होती है।

यही वह कॉन्फ़िगरेशन है जिसे TensorWave के लोग रैकिंग और स्टैकिंग में व्यस्त हैं।

टाटार्चुक ने कहा, "अभी हमारे पास सैकड़ों लोग जा रहे हैं और आने वाले महीनों में हजारों लोग जा रहे हैं।"

उन्हें इकट्ठा करना

एक फोटो में तैनात सोशल मीडिया पर, TensorWave क्रू ने तीन 8U सुपरमाइक्रो AS-8125GS-TNMR2 दिखाए सिस्टम पछाड़ दिया। इसने हमें यह सवाल करने के लिए प्रेरित किया कि क्या TensorWave के रैक बिजली वाले थे या थर्मल रूप से सीमित थे, इन प्रणालियों के लिए पूरी तरह से लोड होने पर 10 किलोवाट से अधिक खींचना असामान्य नहीं है।

यह पता चला है कि TensorWave के लोगों ने मशीनें स्थापित करना समाप्त नहीं किया है और कंपनी लगभग 40kW प्रति रैक की कुल क्षमता वाले चार नोड्स को लक्षित कर रही है। इन प्रणालियों को रियर डोर हीट एक्सचेंजर्स (आरडीएचएक्स) का उपयोग करके ठंडा किया जाएगा। जैसा कि हमने किया है चर्चा की अतीत में, ये रैक के आकार के रेडिएटर होते थे जिनके माध्यम से ठंडा पानी बहता था। जैसे ही गर्म हवा एक पारंपरिक सर्वर से बाहर निकलती है, यह रेडिएटर से होकर गुजरती है जो इसे स्वीकार्य स्तर तक ठंडा कर देती है।

टेन्सोरवेव के सीओओ पियोत्र टोमासिक ने कहा कि यह कूलिंग तकनीक सघन जीपीयू क्लस्टर का समर्थन करने वाले डेटासेंटर ऑपरेटरों के बीच एक हॉट कमोडिटी बन गई है और इससे कुछ आपूर्ति श्रृंखला चुनौतियां पैदा हुई हैं।

उन्होंने विशेष रूप से आरडीएचएक्स को एक समस्या बिंदु के रूप में संदर्भित करते हुए कहा, "इस समय डेटा केंद्रों के आसपास सहायक उपकरणों में भी क्षमता संबंधी बहुत सारी समस्याएं हैं।" "हम अब तक सफल रहे हैं और हम उन्हें तैनात करने की अपनी क्षमता पर बहुत आशावादी थे।"

टोमासिक ने कहा, लंबी अवधि में, हालांकि, टेन्सोरवेव का ध्यान डायरेक्ट-टू-चिप कूलिंग पर है, जिसे उन डेटासेंटरों में तैनात करना मुश्किल हो सकता है, जिन्हें जीपीयू रखने के लिए डिज़ाइन नहीं किया गया था। “हम वर्ष की दूसरी छमाही में डायरेक्ट टू चिप कूलिंग तैनात करने के लिए उत्साहित हैं। हमें लगता है कि घनत्व के साथ यह काफी बेहतर और आसान होगा।"

प्रदर्शन की चिंता

एक और चुनौती एएमडी के प्रदर्शन में विश्वास है। टाटार्चुक के अनुसार, हालांकि एएमडी द्वारा एनवीडिया के विकल्प की पेशकश को लेकर बहुत उत्साह है, लेकिन ग्राहकों को यकीन नहीं है कि वे उसी प्रदर्शन का आनंद लेंगे। उन्होंने कहा, "ऐसी भी बहुत सी बातें हैं 'हम 100 प्रतिशत निश्चित नहीं हैं कि यह उतना बढ़िया होगा जितना हम वर्तमान में एनवीडिया पर इस्तेमाल कर रहे हैं।''

सिस्टम को यथाशीघ्र चालू करने के हित में, TensorWave RDMA ओवर कन्वर्ज्ड ईथरनेट (RoCE) का उपयोग करके अपने MI300X नोड्स लॉन्च करेगा। ये बेअर मेटल सिस्टम निश्चित लीज अवधि के लिए उपलब्ध होंगे, जाहिर तौर पर कम से कम $1/घंटा/जीपीयू पर।

आनुपातिक दरों से बढ़ाएँ

समय के साथ, संगठन का लक्ष्य संसाधनों के प्रावधान के लिए अधिक क्लाउड जैसी ऑर्केस्ट्रेशन परत पेश करना है। उच्च बैंडविड्थ मेमोरी के एक पेटाबाइट से अधिक के साथ एक ही डोमेन में 5.0 जीपीयू को एक साथ जोड़ने के लिए GigaIO की PCIe 5,750-आधारित FabreX तकनीक को लागू करना भी एजेंडे में है।

ये तथाकथित TensorNODE GigaIO के सुपरनोड आर्किटेक्चर पर आधारित हैं प्रदर्शन किया पिछले साल, जिसमें 32 AMD MI210 GPU को एक साथ जोड़ने के लिए PCIe स्विच उपकरणों की एक जोड़ी का उपयोग किया गया था। सिद्धांत रूप में, इससे एकल सीपीयू हेड नोड को आज आमतौर पर जीपीयू नोड्स में देखे जाने वाले आठ एक्सेलेरेटर से कहीं अधिक को संबोधित करने की अनुमति मिलनी चाहिए।

यह दृष्टिकोण एनवीडिया के पसंदीदा डिज़ाइन से भिन्न है, जो कई सुपरचिप्स को एक बड़े जीपीयू में एक साथ जोड़ने के लिए एनवीलिंक का उपयोग करता है। जबकि NVLink 1.8TB/s बैंडविड्थ के साथ काफी तेज है नवीनतम पुनरावृत्ति PCIe 128 पर केवल 5.0GB/s की तुलना में, यह केवल 576 GPU तक कॉन्फ़िगरेशन का समर्थन करता है।

TensorWave ऋण वित्तपोषण के एक बड़े दौर के लिए संपार्श्विक के रूप में अपने GPU का उपयोग करके अपने बिट बार्न निर्माण को वित्तपोषित करेगा, जो अन्य डेटासेंटर ऑपरेटरों द्वारा उपयोग किया जाने वाला दृष्टिकोण है। अभी पिछले सप्ताह, लैम्ब्डा प्रकट इसने एनवीडिया के सबसे तेज़ त्वरक के "दसियों हज़ार" की तैनाती के लिए $500 मिलियन का ऋण प्राप्त किया था।

इस बीच, CoreWeave, किराए के लिए GPU के सबसे बड़े प्रदाताओं में से एक, ऐसा करने में सक्षम था सुरक्षित अपने डेटासेंटर पदचिह्न का विस्तार करने के लिए 2.3 बिलियन डॉलर का भारी ऋण।

टोमासिक ने कहा, "आपको हमसे इस साल के अंत में इसी तरह की घोषणा की उम्मीद करनी चाहिए।" ®

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी