জেনারেটিভ ডেটা ইন্টেলিজেন্স

Google প্রতিদ্বন্দ্বীদের প্রতিদ্বন্দ্বিতায় জেমিনি 1.5 প্রো মডেল ডেবিউ করেছে

তারিখ:

গুগল বৃহস্পতিবার জেমিনি 1.5 চালু করেছে, পাঠ্য, চিত্র এবং অডিও ইন্টারঅ্যাকশনের জন্য একটি মাল্টি-মডেল মডেল পরিবার বেঞ্চমার্কে সেরা প্রতিদ্বন্দ্বী মডেলদের বলে।

মিথুন 1.5 প্রো, মডেল পরিবারের প্রথম সদস্য, চকলেট ফ্যাক্টরি অনুসারে, ওয়েব টাইটানের আল্ট্রা 1.0 মডেলের সাথে তুলনামূলকভাবে পারফর্ম করে যা গত সপ্তাহে আত্মপ্রকাশ করেছিল কিন্তু কম কম্পিউটিং সংস্থানগুলির সাথে তা করে।

গুগল ডিপমাইন্ডের সিইও ডেমিস হাসাবিস বলেছেন, জেমিনি 1.5 প্রো প্রশিক্ষণ এবং পরিবেশন করার জন্য আরও দক্ষ, এর জন্য ধন্যবাদ বিশেষজ্ঞদের মিশ্রণ (MoE) স্থাপত্য। সেকেন্ডারি পর্যায়ে শুধুমাত্র টেক্সট, ইমেজ-ওনলি, এবং অডিও-ওনলি মডেলগুলিকে জটিল উপায়ে একত্রিত করার পরিবর্তে, MoE আর্কিটেকচার শুরু থেকেই টেক্সট, ইমেজ এবং অডিও মোডগুলিকে অন্তর্ভুক্ত করে।

গুগলের সর্বশেষ এআই মডেলটি দৃশ্যত বেঞ্চমার্ক পরীক্ষায় প্রতিদ্বন্দ্বী মডেলকে ছাড়িয়ে গেছে, এটি একটি ইনপুট প্রম্পটে গ্রহণ করতে পারে এমন টোকেনের সংখ্যার উপর ভিত্তি করে – একটি টোকেন ইংরেজিতে প্রায় চারটি অক্ষরের প্রতিনিধিত্ব করে। একটি ব্যবহারিক স্তরে, জেমিনি 1.5 টেক্সট, কোড, ছবি, অডিও এবং ভিডিও খাওয়ানো যেতে পারে এবং সেই উপাদান সম্পর্কে প্রাকৃতিক-ভাষার প্রশ্নের উত্তর দিতে পারে এবং সেইসাথে সেই ধরণের সামগ্রী তৈরি করতে পারে।

“জেমিনি 1.5 প্রো মোডালিটি জুড়ে দীর্ঘ-প্রসঙ্গ পুনরুদ্ধারের কাজগুলিতে কাছাকাছি-নিখুঁত স্মরণ অর্জন করে, দীর্ঘ-নথি QA, দীর্ঘ-ভিডিও QA এবং দীর্ঘ-প্রসঙ্গ ASR-এ অত্যাধুনিক উন্নতি করে এবং জেমিনি 1.0 আল্ট্রা-এর সাথে মিলে যায় বা ছাড়িয়ে যায়। বেঞ্চমার্কের বিস্তৃত সেট জুড়ে অত্যাধুনিক পারফরম্যান্স,” গুগল গবেষকরা লিখেছেন মিথুন 1.5 প্রো প্রযুক্তিগত কাগজ। [পিডিএফ]

অর্থাৎ, যখন হজম করার জন্য একটি দীর্ঘ নথি উপস্থাপন করা হয় - 10M টোকেন পর্যন্ত - Gemini 1.5 একটি নির্দিষ্ট প্রশ্নের 99 শতাংশের বেশি সময় যথাযথভাবে উত্তর দিতে পারে। এবং Google গবেষকদের মতে, জেমিনির 10M টোকেন ক্ষমতা "ক্লাউড 2.1 এবং GPT-4 টার্বো-এর মতো বিদ্যমান মডেলগুলির উপর একটি প্রজন্মগত লিপকে প্রতিনিধিত্ব করে, যা আপাতত যথাক্রমে 200K এবং 128K টোকেনগুলিতে শীর্ষে রয়েছে৷

"[দি] জেমিনি আল্ট্রা মডেল বর্তমানে বিস্তৃত মাপকাঠিতে বিদ্যমান সমস্ত বিকল্পকে হার মানায়," বলেছেন François Chollet, Keras-এর স্রষ্টা এবং Google-এর একজন সফ্টওয়্যার প্রকৌশলী, একটি অনলাইন পোস্টে, “এবং Google-এর কাছে একটি অত্যাধুনিক পরীক্ষা সেট ফিল্টারিং পদ্ধতি রয়েছে যা বাহ্যিকভাবে অতুলনীয়, তাই বেঞ্চমার্কগুলি সম্ভবত অন্যান্য মডেলের চেয়ে বেশি মূল্যায়ন করছে৷ "

এই ধরনের পরীক্ষার উদ্ধৃতি দিয়ে, জেফ ডিন, গুগল ডিপমাইন্ড এবং গুগল রিসার্চের প্রধান বিজ্ঞানী, একটি অনলাইন পোস্টে বলেছেন, "টেক্সটের জন্য, Gemini 1.5 Pro 100k টোকেন পর্যন্ত 530 শতাংশ রিকল, 99.7M টোকেন পর্যন্ত 1 শতাংশ এবং 99.2M টোকেন পর্যন্ত 10 শতাংশ নির্ভুলতা অর্জন করে।"

জেমিনি 1.5 প্রো-এর ব্যাপক ক্ষমতা এটিকে 402-পৃষ্ঠার অ্যাপোলো 11 ফ্লাইট ট্রান্সক্রিপ্ট (326,914 টোকেন) খাওয়ার মতো কৃতিত্ব সম্পাদন করতে দেয় এবং তারপরে, যখন অনুরোধ করা হয়, আবিষ্কার অ্যাপোলো 11 মহাকাশচারীদের মধ্যে আড্ডায় "তিনটি হাস্যকর মুহূর্ত" এবং চাঁদের পৃষ্ঠে হাঁটার একটি বুটের হাতে আঁকা স্কেচের সাথে সঙ্গতিপূর্ণ ট্রান্সক্রিপ্ট টেক্সট সনাক্ত করা।

এবং যখন শার্লক জুনিয়র, 45-এর একটি 1924 মিনিটের বাস্টার কিটন মুভি (2,674FPS এ 1 ফ্রেম, 684K টোকেন) খাওয়ানো হয়, তখন জেমিনি 1.5 প্রো প্রম্পটের প্রতিক্রিয়া জানায়, “আমাকে কাগজের টুকরো থেকে কিছু গুরুত্বপূর্ণ তথ্য বলুন যা ব্যক্তির কাছ থেকে সরানো হয়েছে। পকেট, এবং সেই মুহুর্তের টাইমকোড,” ফিল্ম এবং সময়ে নোটে লেখা পাঠ করে সেই দৃশ্যটি ঘটেছে।

Google ডেভেলপার এবং এন্টারপ্রাইজ গ্রাহকদের জন্য 1.5M টোকেন প্রসঙ্গ উইন্ডো সহ Gemini 1 Pro এর সীমিত প্রিভিউ অফার করছে এআই স্টুডিও এবং ভার্টেক্স এআই সেবা. একটি 128K টোকেন প্রসঙ্গ উইন্ডো সহ সাধারণ উপলব্ধতা পরে আসবে, যেমনটি মেগা-কর্পের মূল্য কাঠামোর কথা হবে।

ডিপমাইন্ডের জন্য সোরা স্পট

ছাড়িয়ে যাওয়ার মতো নয়, বৃহস্পতিবার OpenAI প্রকাশ করেছে সোরা, একটি টেক্সট-টু-ভিডিও মডেল। একটি টেক্সট প্রম্পট দেওয়া হলে, এটি একটি ছোট ভিডিও তৈরি করবে, দৈর্ঘ্যে এক মিনিট পর্যন্ত।

এআই বিজ অনুসারে, সোরা একাধিক চরিত্রের সাথে জটিল দৃশ্য তৈরি করতে পারে যা একটি সুসংগত উপায়ে চিত্রিত বিশ্বের সাথে সরানো এবং যোগাযোগ করে। সুপার ল্যাব তার আউটপুট উদাহরণ টুইট এখানে.

জিম ফ্যান, এনভিডিয়ার সিনিয়র গবেষণা বিজ্ঞানী, সোরাকে ডেটা-চালিত পদার্থবিদ্যা ইঞ্জিন হিসাবে বর্ণনা করেছেন এবং তিনি অনুমান করেছেন যে এটি অবাস্তব ইঞ্জিন 5 থেকে প্রচুর সিন্থেটিক ডেটার উপর প্রশিক্ষিত হয়েছিল। “সিমুলেটরটি জটিল রেন্ডারিং শেখে, 'স্বজ্ঞাত' পদার্থবিদ্যা, দীর্ঘ- দিগন্ত যুক্তি, এবং শব্দার্থিক গ্রাউন্ডিং, সমস্ত কিছু ডিনোইসিং এবং গ্রেডিয়েন্ট ম্যাথ দ্বারা," তিনি বলেছেন একটি সামাজিক মিডিয়া পোস্টে।

সোরা এখনও জনসাধারণের কাছে উপলব্ধ নয় কারণ এটির আরও নিরাপত্তা পরীক্ষার প্রয়োজন৷

"বর্তমান মডেলের দুর্বলতা রয়েছে," ওপেনএআই এ বলেছে ব্লগ পোস্ট. "এটি একটি জটিল দৃশ্যের পদার্থবিদ্যাকে সঠিকভাবে অনুকরণ করার সাথে লড়াই করতে পারে এবং কারণ এবং প্রভাবের নির্দিষ্ট উদাহরণগুলি বুঝতে পারে না। উদাহরণস্বরূপ, একজন ব্যক্তি একটি কুকি থেকে একটি কামড় নিতে পারে, কিন্তু পরে, কুকিতে একটি কামড়ের চিহ্ন নাও থাকতে পারে।"

মডেলটির স্থানিক বিবরণ নিয়েও সমস্যা রয়েছে - উদাহরণস্বরূপ ডান থেকে বাম জানা - এবং সময়ের সাথে সাথে পরিবর্তন বর্ণনা করে এমন বর্ণনাগুলির সাথে দুর্দান্ত নয়।

ফলস্বরূপ, সোরাকে "রেড টিমারদের" অফার করা হচ্ছে যারা ক্ষতিকারক আউটপুটের জন্য মডেলটি পরীক্ষা করবে, সেইসাথে বিভিন্ন ভিজ্যুয়াল শিল্পীদের যাতে মডেলটি তাদের কাজে কীভাবে উপযোগী হতে পারে তার প্রতিক্রিয়া পাওয়ার জন্য।

ওপেনএআই-এর মতে, একবার সোরাকে একটি পাবলিকলি ফেসিং প্রোডাক্টে একীভূত করা হলে, “আমাদের টেক্সট ক্লাসিফায়ার টেক্সট ইনপুট প্রম্পটগুলি পরীক্ষা করবে এবং প্রত্যাখ্যান করবে যেগুলি আমাদের ব্যবহারের নীতিগুলি লঙ্ঘন করে, যেমন যেগুলি চরম সহিংসতা, যৌন বিষয়বস্তু, ঘৃণ্য চিত্র, সেলিব্রিটি সাদৃশ্য, বা অন্যদের আইপি।" ®

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি