जनरेटिव डेटा इंटेलिजेंस

मेटा ने तीसरी पीढ़ी के लामा बड़े भाषा मॉडल की शुरुआत की

दिनांक:

मेटा ने अपना नवीनतम लार्ज लैंग्वेज मॉडल (एलएलएम) लॉन्च किया है - जिसका नाम लामा 3 है - और दावा है कि यह Google, मिस्ट्रल और एंथ्रोपिक जैसे बड़े मॉडलों को चुनौती देगा।

एक लंबे समय में खुलासा घोषणा गुरुवार को, लामा 3 आठ अरब से लेकर 400 अरब से अधिक मापदंडों वाले संस्करणों में उपलब्ध है। संदर्भ के लिए, OpenAI और Google के सबसे बड़े मॉडल दो ट्रिलियन मापदंडों के करीब हैं।

अभी, हमें केवल लामा 3 के आठ अरब और 70 अरब पैरामीटर टेक्स्ट वेरिएंट तक पहुंच मिल रही है। मेटा ने अभी तक अपने सबसे बड़े और सबसे जटिल मॉडल का प्रशिक्षण पूरा नहीं किया है, लेकिन संकेत है कि वे बहुभाषी और मल्टीमॉडल होंगे - जिसका अर्थ है कि वे कई छोटे डोमेन-अनुकूलित मॉडल से इकट्ठे किए गए हैं।

मात्र 70 अरब मापदंडों के साथ भी, मेटा का दावा है कि लामा 3 बहुत बड़े मॉडलों के साथ आमने-सामने जाने में सक्षम है।

मेटा का दावा है कि Llama3-8B और 70B जेमिनी प्रो और एंथ्रोपिक के क्लाउड 3 सहित कहीं बड़े मॉडल से बेहतर प्रदर्शन कर सकते हैं।

मेटा का दावा है कि Llama3-8B और 70B जेमिनी प्रो और एंथ्रोपिक के क्लाउड 3 सहित कहीं बड़े मॉडल से बेहतर प्रदर्शन कर सकते हैं - बड़ा करने के लिए क्लिक करें

बेहतर डेटा, बेहतर मॉडल

मेटा के अनुसार, सबसे बड़े लाभों में से एक, 128,000 टोकन की शब्दावली वाले टोकनाइज़र के उपयोग से आता है। एलएलएम के संदर्भ में, टोकन कुछ अक्षर, पूरे शब्द या वाक्यांश भी हो सकते हैं। एआई मानव इनपुट को टोकन में तोड़ देता है, फिर आउटपुट उत्पन्न करने के लिए टोकन की अपनी शब्दावली का उपयोग करता है।

मेटा ने बताया कि इसका टोकननाइज़र भाषा को अधिक कुशलता से एन्कोड करने में मदद करता है, जिससे प्रदर्शन में उल्लेखनीय वृद्धि होती है। मॉडल के प्रदर्शन और समग्र सटीकता में सुधार के लिए प्रशिक्षण के बाद उच्च-गुणवत्ता वाले डेटासेट और अतिरिक्त फाइन-ट्यूनिंग चरणों का उपयोग करके अतिरिक्त लाभ प्राप्त किए गए।

विशेष रूप से, मेटा ने खुलासा किया कि लामा 3 को सार्वजनिक रूप से उपलब्ध स्रोतों से एकत्र किए गए 15 ट्रिलियन से अधिक टोकन पर पूर्व-प्रशिक्षित किया गया था।

लामा 3 का प्रशिक्षण डेटासेट सात गुना से अधिक बड़ा है और इसमें लामा 2 की तुलना में चार गुना अधिक कोड है, जो शुभारंभ अभी नौ महीने पहले. लेकिन, जैसा कि कहा जाता है, "कचरा अंदर, कचरा बाहर" - इसलिए मेटा का दावा है कि उसने यह सुनिश्चित करने के लिए डेटा-फ़िल्टरिंग पाइपलाइनों की एक श्रृंखला विकसित की है कि लामा 3 को यथासंभव कम बुरी जानकारी पर प्रशिक्षित किया गया था।

उन गुणवत्ता नियंत्रणों में अनुमानी और एनएसएफडब्ल्यू फिल्टर, साथ ही डेटा डिडुप्लीकेशन और प्रशिक्षण से पहले जानकारी की गुणवत्ता की भविष्यवाणी करने के लिए उपयोग किए जाने वाले टेक्स्ट क्लासिफायर दोनों शामिल थे। गेहूं को भूसी से अलग करने में मदद के लिए मेटा ने अपने पुराने लामा 2 मॉडल का भी उपयोग किया - जिसके बारे में उसने कहा कि यह "उच्च गुणवत्ता वाले डेटा की पहचान करने में आश्चर्यजनक रूप से अच्छा था"।

प्रशिक्षण डेटा का पांच प्रतिशत 30 से अधिक भाषाओं से आया है, जिसके बारे में मेटा ने भविष्यवाणी की है कि यह भविष्य में मॉडल में अधिक महत्वपूर्ण बहुभाषी क्षमताओं को लाने में मदद करेगा। अभी के लिए, सोशल नेटवर्क™️ का कहना है कि उपयोगकर्ताओं को अंग्रेजी के अलावा अन्य भाषाओं में समान स्तर के प्रदर्शन की उम्मीद नहीं करनी चाहिए।

इतने बड़े डेटासेट पर छोटे मॉडलों को प्रशिक्षित करना आम तौर पर कंप्यूटिंग समय की बर्बादी माना जाता है, और यहां तक ​​कि सटीकता में कम रिटर्न भी देता है। संसाधनों की गणना के लिए प्रशिक्षण डेटा के आदर्श मिश्रण को "कहा जाता है"चिनचिला इष्टतम” [पीडीएफ] राशि। मेटा के अनुसार, Llama3-8B जैसे आठ बिलियन पैरामीटर मॉडल के लिए, यह लगभग 200 बिलियन टोकन होगा।

हालाँकि, परीक्षण में, मेटा ने पाया कि बड़े डेटासेट पर प्रशिक्षित होने पर भी लामा 3 का प्रदर्शन बेहतर होता रहा। बिज़ ने लिखा, "हमारे आठ बिलियन और हमारे 70 बिलियन पैरामीटर मॉडल दोनों को 15 ट्रिलियन टोकन पर प्रशिक्षित करने के बाद लॉग-लीनियर रूप से सुधार जारी रहा।"

परिणाम, ऐसा लगता है, एक अपेक्षाकृत कॉम्पैक्ट मॉडल है जो कहीं बड़े मॉडलों की तुलना में परिणाम उत्पन्न करने में सक्षम है। गणना में ट्रेडऑफ़ को संभवतः सार्थक माना जाता था, क्योंकि छोटे मॉडल का अनुमान लगाना आम तौर पर आसान होता है और इस प्रकार बड़े पैमाने पर तैनात करना आसान होता है।

8-बिट परिशुद्धता पर, आठ बिलियन पैरामीटर मॉडल को केवल 8GB मेमोरी की आवश्यकता होती है। 4-बिट परिशुद्धता पर जाने से - या तो इसका समर्थन करने वाले हार्डवेयर का उपयोग करना या मॉडल को संपीड़ित करने के लिए परिमाणीकरण का उपयोग करना - मेमोरी आवश्यकताओं को लगभग आधा कर देगा।

मेटा ने मॉडल को 24,000 एनवीडिया जीपीयू वाले प्रत्येक कंप्यूट क्लस्टर की एक जोड़ी पर प्रशिक्षित किया। जैसा कि आप कल्पना कर सकते हैं, इतने बड़े क्लस्टर पर प्रशिक्षण, तेज़ होने के साथ-साथ, कुछ चुनौतियाँ भी पेश करता है - प्रशिक्षण के बीच में कुछ विफल होने की संभावना बढ़ जाती है।

इसे कम करने के लिए, मेटा ने बताया कि उसने एक प्रशिक्षण स्टैक विकसित किया है जो त्रुटि का पता लगाने, प्रबंधन और रखरखाव को स्वचालित करता है। हाइपरस्केलर ने प्रशिक्षण रन बाधित होने की स्थिति में चेकपॉइंट और रोलबैक के ओवरहेड को कम करने के लिए विफलता निगरानी और भंडारण सिस्टम भी जोड़ा। और एक बार पूरा होने पर, मेटा ने मॉडलों को प्रशिक्षण के बाद परीक्षण और फाइन-ट्यूनिंग चरणों की एक श्रृंखला के अधीन किया।

Llama3-8B और 70B के साथ, मेटा ने नए और अद्यतन ट्रस्ट और सुरक्षा उपकरण भी लॉन्च किए - जिनमें Llama गार्ड 2 और साइबरसेक इवल 2 शामिल हैं, ताकि उपयोगकर्ताओं को मॉडल को दुरुपयोग और/या त्वरित इंजेक्शन हमलों से सुरक्षित रखने में मदद मिल सके। कोड शील्ड एक और अतिरिक्त सुविधा है जो लामा 3 द्वारा उत्पन्न असुरक्षित कोड को फ़िल्टर करने में मदद करने के लिए डिज़ाइन की गई रेलिंग प्रदान करती है।

जैसा कि हमने पहले रिपोर्ट किया है, एलएलएम-सहायक कोड पीढ़ी ने कुछ दिलचस्प चीजें पैदा की हैं हमला वैक्टर मेटा इससे बचना चाहता है।

उपलब्धता

अगले कुछ महीनों में, मेटा ने अतिरिक्त मॉडल पेश करने की योजना बनाई है - जिसमें 400 बिलियन से अधिक पैरामीटर और अतिरिक्त कार्यक्षमता, भाषाओं और बड़े संदर्भ विंडो का समर्थन करना शामिल है। उत्तरार्द्ध उपयोगकर्ताओं को बड़े, अधिक जटिल प्रश्न पूछने की अनुमति देगा - जैसे पाठ के एक बड़े ब्लॉक को सारांशित करना।

Llama3-8B और 70B वर्तमान में मेटा से डाउनलोड के लिए उपलब्ध हैं वेबसाइट . अमेज़ॅन वेब सर्विसेज, माइक्रोसॉफ्ट एज़्योर, गूगल क्लाउड, हगिंग फेस और अन्य भी अपने प्लेटफॉर्म पर तैनाती के लिए मॉडल पेश करने की योजना बना रहे हैं।

यदि आप अपनी मशीन पर Llama3 का परीक्षण करना चाहते हैं, तो आप स्थानीय एलएलएम चलाने पर हमारी मार्गदर्शिका देख सकते हैं यहाँ उत्पन्न करें. एक बार जब आप इसे इंस्टॉल कर लें, तो आप इसे चलाकर लॉन्च कर सकते हैं:

ओलामा रन लामा3

आनंद लें और हमें बताएं कि यह कैसा रहा। ®

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी