जनरेटिव डेटा इंटेलिजेंस

Microsoft ने Phi-3 Mini के साथ AI को पॉकेट आकार तक छोटा कर दिया है

दिनांक:

माइक्रोसॉफ्ट का दावा है कि उसके हल्के फी-3 मिनी एआई मॉडल का नवीनतम अवतार जीपीटी-3.5 जैसे प्रतिद्वंद्वियों को टक्कर देता है, जबकि फोन पर तैनात करने के लिए काफी छोटा है।

फी-3 मिनी एक 3.8 बिलियन-पैरामीटर भाषा मॉडल है जिसे 3.3 ट्रिलियन टोकन पर प्रशिक्षित किया गया है। यह आंकड़ा माइक्रोसॉफ्ट के Phi-2.7 के 2 बिलियन पैरामीटर से ऊपर है शुरू की दिसम्बर 2023 में।

प्रशिक्षण मॉडल में जितना संभव हो उतना ज़ोर लगाने के बजाय, तर्क-वितर्क पर ध्यान केंद्रित किया गया। माइक्रोसॉफ्ट ने कहा: "उदाहरण के तौर पर, किसी विशेष दिन में प्रीमियर लीग में गेम का परिणाम फ्रंटियर मॉडल के लिए अच्छा प्रशिक्षण डेटा हो सकता है, लेकिन हमें मिनी आकार के मॉडल के लिए 'तर्क' के लिए अधिक मॉडल क्षमता छोड़ने के लिए ऐसी जानकारी को हटाने की आवश्यकता है ।”

लक्षित दृष्टिकोण का मतलब है कि भले ही Phi-3 के पास अपने प्रतिस्पर्धियों के बराबर ज्ञान न हो, लेकिन जब तर्क की बात आती है, तो यह कम से कम उतना ही अच्छा है, यदि बेहतर नहीं है, या ऐसा Microsoft का दावा है। में एक शोध पत्र [पीडीएफ], माइक्रोसॉफ्ट नोट करता है कि इसने उसके छोटे भाषा मॉडल को "केवल 3.5बी कुल मापदंडों के साथ जीपीटी-3.8 या मिक्सट्राल जैसे अत्यधिक सक्षम मॉडल के स्तर तक पहुंचने की अनुमति दी (जबकि उदाहरण के लिए मिक्सट्राल में 45बी कुल पैरामीटर हैं)।"

शोध में यह भी कहा गया है कि उपयोग किए गए प्रशिक्षण डेटा में "विभिन्न खुले इंटरनेट स्रोतों से भारी फ़िल्टर किए गए वेब डेटा" और एलएलएम-जनित डेटा शामिल थे। एलएलएम को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा स्रोत का विषय है कई मुकदमे.

हमें बताया गया कि फी-3 मिनी के छोटे आकार का मतलब है कि यह स्मार्टफोन पर ऑफ़लाइन चल सकता है। शोधकर्ताओं ने कहा कि इसे लगभग 1.8 जीबी मेमोरी पर कब्जा करने के लिए बनाया जा सकता है और इसे iPhone 14 पर एक डिवाइस पर मूल रूप से चलने वाली A16 बायोनिक चिप के साथ ऑफ़लाइन आज़माया जा सकता है। पेपर में, शोधकर्ता फी-3 मिनी के एक कविता लिखते हुए और ह्यूस्टन में करने के लिए चीजों का सुझाव देते हुए स्क्रीनशॉट दिखाते हैं।

शोधकर्ता भाषा की समझ और तर्क पर ध्यान केंद्रित करने में निहित कमियों पर भी प्रकाश डालते हैं। "मॉडल में बहुत अधिक 'तथ्यात्मक ज्ञान' संग्रहीत करने की क्षमता नहीं है," कुछ ऐसा जिसे एक खोज इंजन के साथ बढ़ाकर कुछ हद तक कम किया जा सकता है। हालाँकि, इससे इसे ऑफ़लाइन चलाने में सक्षम होने की बात ख़त्म हो जाएगी।

वर्तमान में भाषा ज्यादातर अंग्रेजी तक ही सीमित है, और अधिकांश एलएलएम में निहित समस्याएं - मतिभ्रम, पूर्वाग्रह प्रवर्धन और अनुचित सामग्री की पीढ़ी - फी -3 मिनी में भी पाई जा सकती हैं।

शोधकर्ता पेपर में कहते हैं: "इन चुनौतियों से पूरी तरह निपटने के लिए आगे महत्वपूर्ण काम किया जाना बाकी है।"

बड़े मॉडल - तुलनात्मक रूप से कहें तो - क्रमशः 3 और 3 बिलियन मापदंडों के साथ Phi-7 Small और Phi-14 मीडियम के रूप में घोषित किए गए हैं।

विक्टर बोतेव, सीटीओ और सह-संस्थापक आईरिस.ई, ने हमें बताया: “Microsoft की Phi-3 मॉडल की घोषणा AI विकास में एक सतत प्रवृत्ति का प्रतिनिधित्व करती है। बड़े मॉडलों का पीछा करने के बजाय, माइक्रोसॉफ्ट अधिक सावधानी से तैयार किए गए डेटा और विशेष प्रशिक्षण के साथ उपकरण विकसित कर रहा है। यह खरबों मापदंडों वाले मॉडलों की भारी कम्प्यूटेशनल लागत के बिना बेहतर प्रदर्शन और तर्क क्षमताओं की अनुमति देता है। इस वादे को पूरा करने का मतलब एआई समाधान की तलाश कर रहे व्यवसायों के लिए गोद लेने की एक बड़ी बाधा को दूर करना होगा।

“Microsoft बुद्धिमानी से 'बड़ा है तो बेहतर है' मानसिकता से परे देख रहा है। व्यापक व्यवसाय और उपभोक्ता एआई अनुप्रयोगों के लिए, बड़े पैमाने पर मापदंडों की तुलना में व्यवहार्यता और विशिष्टता अधिक महत्वपूर्ण है। Phi-3 जैसे मॉडल स्पष्ट रूप से प्रदर्शित करते हैं कि सही डेटा और प्रशिक्षण दृष्टिकोण के साथ, उन्नत AI क्षमताओं को कभी भी बड़े मॉडल बनाने की आवश्यकता नहीं होती है - उन व्यवसायों के लिए एक निर्णायक कारक जहां लागत-से-गुणवत्ता अनुपात महत्वपूर्ण है। ®

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी

हमारे साथ चैट करें

नमस्ते! मैं आपकी कैसे मदद कर सकता हूँ?