জেনারেটিভ ডেটা ইন্টেলিজেন্স

মেটা তৃতীয় প্রজন্মের লামা বড় ভাষার মডেল ডেবিউ করে

তারিখ:

মেটা তার সর্বশেষ বৃহৎ ভাষা মডেল (LLM) প্রকাশ করেছে - যার নাম Llama 3 - এবং দাবি করেছে যে এটি Google, Mistral এবং Anthropic-এর মত থেকে অনেক বড় মডেলকে চ্যালেঞ্জ করবে৷

একটি দীর্ঘ মধ্যে প্রকাশিত ঘোষণা বৃহস্পতিবার, Llama 3 আট বিলিয়ন থেকে 400 বিলিয়ন প্যারামিটার পর্যন্ত সংস্করণে উপলব্ধ। রেফারেন্সের জন্য, OpenAI এবং Google এর বৃহত্তম মডেল দুই ট্রিলিয়ন প্যারামিটারের কাছাকাছি।

আপাতত, আমরা শুধুমাত্র Llama 3 এর আট বিলিয়ন এবং 70 বিলিয়ন প্যারামিটার টেক্সট ভেরিয়েন্টে অ্যাক্সেস পাচ্ছি। মেটা এখনও তার বৃহত্তম এবং সবচেয়ে জটিল মডেলগুলিকে প্রশিক্ষণ দেয়নি, তবে ইঙ্গিত দেয় যে তারা বহুভাষিক এবং বহুমুখী হবে – যার অর্থ তারা একাধিক ছোট ডোমেন-অপ্টিমাইজ করা মডেল থেকে একত্রিত হয়েছে৷

এমনকি মাত্র 70 বিলিয়ন প্যারামিটারের সাথেও, মেটা দাবি করে যে লামা 3 অনেক বড় মডেলের সাথে টো-টু-টো-টো-টো করতে সক্ষম।

মেটা দাবি করে যে Llama3-8B এবং 70B জেমিনি প্রো এবং অ্যানথ্রোপিকস ক্লাউড 3 সহ অনেক বড় মডেলকে ছাড়িয়ে যেতে পারে

মেটা দাবি করে যে Llama3-8B এবং 70B জেমিনি প্রো এবং অ্যানথ্রোপিকস ক্লাউড 3 সহ অনেক বড় মডেলকে ছাড়িয়ে যেতে পারে – বড় করতে ক্লিক করুন

আরও ভাল ডেটা, ভাল মডেল

মেটা অনুসারে সবচেয়ে বড় লাভগুলির মধ্যে একটি, 128,000 টোকেনের শব্দভাণ্ডার সহ একটি টোকেনাইজার ব্যবহার থেকে আসে। এলএলএম-এর প্রেক্ষাপটে, টোকেনগুলি কয়েকটি অক্ষর, সম্পূর্ণ শব্দ বা এমনকি বাক্যাংশ হতে পারে। AIs মানুষের ইনপুটকে টোকেনে ভেঙে দেয়, তারপর আউটপুট তৈরি করতে তাদের টোকেনের শব্দভাণ্ডার ব্যবহার করে।

মেটা ব্যাখ্যা করেছে যে এর টোকেনাইজার ভাষাকে আরও দক্ষতার সাথে এনকোড করতে সাহায্য করে, কার্যকারিতা উল্লেখযোগ্যভাবে বৃদ্ধি করে। মডেলের কর্মক্ষমতা এবং সামগ্রিক নির্ভুলতা উন্নত করার জন্য প্রশিক্ষণের পরে উচ্চ-মানের ডেটাসেট এবং অতিরিক্ত সূক্ষ্ম-টিউনিং পদক্ষেপগুলি ব্যবহার করে অতিরিক্ত লাভ অর্জিত হয়েছিল।

বিশেষভাবে, মেটা প্রকাশ করেছে যে লামা 3 সর্বজনীনভাবে উপলব্ধ উত্স থেকে সংগৃহীত 15 ট্রিলিয়ন টোকেনগুলির উপর প্রাক-প্রশিক্ষিত ছিল।

Llama 3-এর প্রশিক্ষণ ডেটাসেট সাত গুণেরও বেশি বড় এবং এতে Llama 2-এর থেকে চার গুণ বেশি কোড রয়েছে, যা চালু মাত্র নয় মাস আগে। কিন্তু, যেমনটি বলে, "আবর্জনা ভিতরে, আবর্জনা আউট" - তাই মেটা দাবি করে যে এটি লামা 3কে যতটা সম্ভব কম খারাপ তথ্যের উপর প্রশিক্ষণ দেওয়া হয়েছে তা নিশ্চিত করার জন্য ডেটা-ফিল্টারিং পাইপলাইনগুলির একটি সিরিজ তৈরি করেছে৷

এই মান নিয়ন্ত্রণগুলির মধ্যে হিউরিস্টিক এবং NSFW ফিল্টার, সেইসাথে ডেটা ডিডুপ্লিকেশন, এবং প্রশিক্ষণের আগে তথ্যের গুণমান সম্পর্কে পূর্বাভাস দিতে ব্যবহৃত পাঠ্য শ্রেণিবদ্ধকরণ অন্তর্ভুক্ত ছিল। মেটা এমনকি তার পুরোনো লামা 2 মডেল ব্যবহার করেছে - যা বলেছিল "উচ্চ মানের ডেটা সনাক্ত করতে আশ্চর্যজনকভাবে ভাল" - তুষ থেকে গমকে আলাদা করতে সহায়তা করার জন্য।

প্রশিক্ষণ তথ্যের পাঁচ শতাংশ 30টিরও বেশি ভাষা থেকে এসেছে, যা মেটা ভবিষ্যদ্বাণী করেছে যে মডেলটিতে আরও উল্লেখযোগ্য বহুভাষিক ক্ষমতা আনতে ভবিষ্যতে সাহায্য করবে। আপাতত, সোশ্যাল নেটওয়ার্ক™️ বলেছে যে ব্যবহারকারীদের ইংরেজি ছাড়া অন্য ভাষায় একই মাত্রার পারফরম্যান্স আশা করা উচিত নয়।

এত বড় ডেটাসেটে ছোট মডেলের প্রশিক্ষণ দেওয়াকে সাধারণত কম্পিউটিং সময়ের অপচয় বলে মনে করা হয়, এমনকি নির্ভুলতা হ্রাসকারী রিটার্ন তৈরি করা। সংস্থানগুলি গণনা করার জন্য প্রশিক্ষণের ডেটার আদর্শ মিশ্রণকে বলা হয় "চিনচিলা সর্বোত্তম” [পিডিএফ] পরিমাণ। মেটা অনুসারে, Llama3-8B এর মতো আট বিলিয়ন প্যারামিটার মডেলের জন্য, এটি প্রায় 200 বিলিয়ন টোকেন হবে।

যাইহোক, পরীক্ষায়, মেটা দেখেছে যে Llama 3-এর কর্মক্ষমতা বৃহত্তর ডেটাসেটে প্রশিক্ষিত হওয়ার পরেও উন্নতি করতে থাকে। "আমাদের আট বিলিয়ন এবং আমাদের 70 বিলিয়ন প্যারামিটার মডেল উভয়ই লগ-রৈখিকভাবে উন্নতি করতে থাকে যখন আমরা তাদের 15 ট্রিলিয়ন টোকেন পর্যন্ত প্রশিক্ষণ দিয়েছি," বিজ লিখেছে।

ফলাফল, মনে হচ্ছে, একটি অপেক্ষাকৃত কমপ্যাক্ট মডেল যা অনেক বড় মডেলের সাথে তুলনীয় ফলাফল তৈরি করতে সক্ষম। কম্পিউটে ট্রেডঅফ সম্ভবত সার্থক বলে বিবেচিত হয়েছিল, কারণ ছোট মডেলগুলি সাধারণত অনুমান করা সহজ এবং এইভাবে স্কেলে স্থাপন করা সহজ।

8-বিট নির্ভুলতায়, একটি আট বিলিয়ন প্যারামিটার মডেলের জন্য মাত্র 8GB মেমরি প্রয়োজন। 4-বিট নির্ভুলতায় ড্রপ করা - হয় এটিকে সমর্থন করে এমন হার্ডওয়্যার ব্যবহার করা বা মডেলটি সংকুচিত করার জন্য কোয়ান্টাইজেশন ব্যবহার করা - মেমরির প্রয়োজনীয়তা প্রায় অর্ধেক কমে যাবে।

মেটা মডেলটিকে 24,000 এনভিডিয়া জিপিইউ সমন্বিত এক জোড়া কম্পিউট ক্লাস্টারে প্রশিক্ষণ দিয়েছে। আপনি যেমন কল্পনা করতে পারেন, এত বড় ক্লাস্টারে প্রশিক্ষণ, যদিও দ্রুততর, কিছু চ্যালেঞ্জও প্রবর্তন করে - প্রশিক্ষণের মাঝখানে কিছু ব্যর্থ হওয়ার সম্ভাবনা বেড়ে যায়।

এটি প্রশমিত করার জন্য, মেটা ব্যাখ্যা করেছে যে এটি একটি প্রশিক্ষণ স্ট্যাক তৈরি করেছে যা ত্রুটি সনাক্তকরণ, পরিচালনা এবং রক্ষণাবেক্ষণকে স্বয়ংক্রিয় করে। হাইপারস্কেলার চেকপয়েন্টের ওভারহেড কমাতে ব্যর্থতা নিরীক্ষণ এবং স্টোরেজ সিস্টেম যোগ করেছে এবং ট্রেনিং ব্যাহত হলে রোলব্যাক করেছে। এবং একবার সম্পন্ন হলে, মেটা মডেলগুলিকে প্রশিক্ষণ-পরবর্তী পরীক্ষা এবং সূক্ষ্ম টিউনিং পদক্ষেপগুলির একটি সিরিজের অধীন করে।

Llama3-8B এবং 70B এর পাশাপাশি, মেটা নতুন এবং আপডেট করা বিশ্বাস এবং সুরক্ষা সরঞ্জামগুলিও রোল আউট করেছে - যার মধ্যে রয়েছে Llama Guard 2 এবং Cybersec Eval 2, ব্যবহারকারীদের অপব্যবহার এবং/অথবা প্রম্পট ইনজেকশন আক্রমণ থেকে মডেলটিকে সুরক্ষিত করতে সহায়তা করার জন্য৷ কোড শিল্ড হল আরেকটি সংযোজন যা Llama 3 দ্বারা উত্পন্ন অনিরাপদ কোড ফিল্টার করতে সাহায্য করার জন্য ডিজাইন করা গার্ডেল প্রদান করে।

আমরা পূর্বে রিপোর্ট করেছি, এলএলএম-সহায়তা কোড জেনারেশন কিছু আকর্ষণীয় দিকে পরিচালিত করেছে আক্রমণ ভেক্টর যে মেটা এড়াতে খুঁজছেন.

উপস্থিতি

পরের কয়েক মাসে, মেটা অতিরিক্ত মডেলগুলি রোল আউট করার পরিকল্পনা করেছে - যার মধ্যে একটি 400 বিলিয়ন প্যারামিটারের বেশি এবং অতিরিক্ত কার্যকারিতা, ভাষা এবং বৃহত্তর প্রসঙ্গ উইন্ডোগুলিকে সমর্থন করে৷ পরবর্তীটি ব্যবহারকারীদের আরও বড়, আরও জটিল প্রশ্ন জিজ্ঞাসা করার অনুমতি দেবে - যেমন পাঠ্যের একটি বড় ব্লকের সংক্ষিপ্তকরণ।

Llama3-8B এবং 70B বর্তমানে Meta's থেকে ডাউনলোডের জন্য উপলব্ধ ওয়েবসাইট. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face, এবং অন্যান্যরাও তাদের প্ল্যাটফর্মে স্থাপনের জন্য মডেলটি অফার করার পরিকল্পনা করছে।

আপনি যদি আপনার মেশিনে Llama3 পরীক্ষা করতে চান, আপনি স্থানীয় LLM চালানোর বিষয়ে আমাদের গাইড দেখতে পারেন এখানে. একবার আপনি এটি ইনস্টল করার পরে, আপনি এটি চালিয়ে এটি চালু করতে পারেন:

ollama রান llama3

মজা করুন এবং আমাদের জানান কিভাবে এটা হয়েছে. ®

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি