بھرپور انسانی تاثرات سے سیکھ کر ایل ایل ایم میں ملٹی ہاپ ریزننگ کو بہتر بنائیں

حالیہ بڑے لینگویج ماڈلز (LLMs) نے فطری زبان کی تفہیم میں زبردست پیش رفت کو قابل بنایا ہے۔ تاہم، وہ پراعتماد لیکن بے ہودہ وضاحتیں پیدا کرنے کا شکار ہیں، جو صارفین کے ساتھ اعتماد قائم کرنے میں ایک اہم رکاوٹ ہے۔ اس پوسٹ میں، ہم دکھاتے ہیں کہ ان کاموں پر کارکردگی کو بہتر بنانے کے لیے ملٹی ہاپ استدلال کے لیے غلط استدلال کی زنجیروں پر انسانی تاثرات کو کیسے شامل کیا جائے۔ انسانوں سے پوچھ کر استدلال کی زنجیروں کو شروع سے اکٹھا کرنے کے بجائے، ہم LLMs کی حوصلہ افزا صلاحیتوں کا استعمال کرتے ہوئے ماڈل سے تیار کردہ استدلال کی زنجیروں پر بھرپور انسانی تاثرات سے سیکھتے ہیں۔ ہم StrategyQA اور اسپورٹس انڈرسٹینڈنگ ڈیٹاسیٹس کے لیے انسانی فیڈ بیک کے ایسے دو ڈیٹا سیٹ (تصحیح، وضاحت، غلطی کی قسم) کی شکل میں جمع کرتے ہیں، اور اس طرح کے تاثرات سے سیکھنے کے لیے کئی عام الگورتھم کا جائزہ لیتے ہیں۔ ہمارے مجوزہ طریقے بیس Flan-T5 کا استعمال کرتے ہوئے چین آف تھیٹ پرمپٹنگ کے لیے مسابقتی کارکردگی کا مظاہرہ کرتے ہیں، اور ہمارے اپنے جواب کی درستگی کو جانچنے میں بہتر ہے۔

حل جائزہ

لینگویج کے بڑے ماڈلز کے آغاز کے ساتھ، فیلڈ نے مختلف قدرتی لینگویج پروسیسنگ (NLP) بینچ مارکس پر زبردست پیش رفت دیکھی ہے۔ ان میں سے، مشکل کاموں کے مقابلے میں نسبتاً آسان کاموں جیسے کہ مختصر سیاق و سباق یا حقائق پر مبنی سوالوں کے جوابات پر پیشرفت نمایاں رہی ہے جس کے لیے استدلال کی ضرورت ہوتی ہے جیسے کہ ملٹی ہاپ سوال کے جوابات۔ LLMs کا استعمال کرتے ہوئے کچھ کاموں کی کارکردگی چھوٹے پیمانے پر بے ترتیب اندازے کی طرح ہو سکتی ہے، لیکن بڑے پیمانے پر نمایاں طور پر بہتر ہوتی ہے۔ اس کے باوجود، LLMs کی حوصلہ افزا صلاحیتیں سوال کا جواب دینے کے لیے درکار کچھ متعلقہ حقائق فراہم کرنے کی صلاحیت رکھتی ہیں۔

تاہم، وہ ماڈلز قابل اعتماد طریقے سے صحیح استدلال کی زنجیریں یا وضاحتیں پیدا نہیں کر سکتے ہیں۔ وہ پراعتماد لیکن فضول وضاحتیں اس وقت بھی زیادہ عام ہوتی ہیں جب LLMs کو Reinforcement Learning from Human Feedback (RLHF) کا استعمال کرتے ہوئے تربیت دی جاتی ہے، جہاں ریوارڈ ہیکنگ ہو سکتی ہے۔

اس سے حوصلہ افزائی کرتے ہوئے، ہم مندرجہ ذیل تحقیقی سوال کو حل کرنے کی کوشش کرتے ہیں: کیا ہم ماڈل کے ذریعے تیار کردہ استدلال زنجیروں پر انسانی تاثرات سے سیکھ کر LLMs کے استدلال کو بہتر بنا سکتے ہیں؟ مندرجہ ذیل اعداد و شمار ہمارے نقطہ نظر کا ایک جائزہ فراہم کرتا ہے: ہم پہلے ماڈل کو ملٹی ہاپ سوالات کے لیے استدلال کی زنجیریں تیار کرنے کا اشارہ کرتے ہیں، پھر تشخیص کے لیے ان زنجیروں پر متنوع انسانی تاثرات جمع کرتے ہیں اور جمع کیے گئے ڈیٹا سے سیکھنے کے لیے تربیتی الگورتھم تجویز کرتے ہیں۔

ہم بگ بینچ سے دو ملٹی ہاپ ریجننگ ڈیٹاسیٹس، StrategyQA اور اسپورٹس انڈرسٹینڈنگ پر متنوع انسانی تاثرات جمع کرتے ہیں۔ ہر سوال اور ماڈل سے تیار کردہ استدلال کی زنجیر کے لیے، ہم صحیح استدلال کی زنجیر، ماڈل سے تیار کردہ استدلال کی زنجیر میں غلطی کی قسم، اور فراہم کردہ استدلال کے سلسلے میں اس غلطی کو کیوں پیش کیا گیا ہے اس کی وضاحت (فطری زبان میں) جمع کرتے ہیں۔ حتمی ڈیٹاسیٹ میں StrategyQA کے 1,565 نمونوں اور کھیلوں کی تفہیم کے لیے 796 مثالیں شامل ہیں۔

ہم جمع کیے گئے تاثرات سے سیکھنے کے لیے متعدد تربیتی الگورتھم تجویز کرتے ہیں۔ سب سے پہلے، ہم اس کی ایک وزنی قسم پر غور کر کے چین آف تھیٹ پرمپٹنگ میں خود مستقل مزاجی کی ایک قسم تجویز کرتے ہیں جو تاثرات سے سیکھا جا سکتا ہے۔ دوسرا، ہم تکراری تطہیر کی تجویز پیش کرتے ہیں، جہاں ہم ماڈل سے تیار کردہ استدلال کی زنجیر کو اس وقت تک بہتر کرتے ہیں جب تک کہ یہ درست نہ ہو۔ ہم دو ڈیٹاسیٹس پر تجرباتی طور پر یہ ظاہر کرتے ہیں کہ مجوزہ الگورتھم کا استعمال کرتے ہوئے LLM، یعنی Flan-T5 کو ٹھیک کرنا، سیاق و سباق میں سیکھنے کی بنیادی لائن کے مقابلے میں کارکردگی کا مظاہرہ کرتا ہے۔ مزید اہم بات یہ ہے کہ، ہم یہ ظاہر کرتے ہیں کہ بیس Flan-T5 ماڈل کے مقابلے میں اگر اس کا اپنا جواب درست ہے تو ٹھیک ٹیونڈ ماڈل فیصلہ کرنے میں بہتر ہے۔

ڈیٹا کلیکشن

اس سیکشن میں، ہم اپنے جمع کردہ تاثرات اور ڈیٹا اکٹھا کرنے کے دوران تشریحی پروٹوکول کی تفصیلات بیان کرتے ہیں۔ ہم نے دو استدلال پر مبنی ڈیٹا سیٹس کی بنیاد پر ماڈل جنریشنز کے لیے فیڈ بیک اکٹھا کیا: StrategyQA اور BigBench سے اسپورٹس انڈرسٹینڈنگ۔ ہم نے GPT-J کا استعمال StrategyQA اور Flan-T5 کا جواب تیار کرنے کے لیے کیا تاکہ اسپورٹس انڈرسٹینڈنگ ڈیٹاسیٹ کا جواب تیار کیا جا سکے۔ ہر معاملے میں، ماڈل کو سوال، جواب، اور وضاحت پر مشتمل کے سیاق و سباق کی مثالوں کے ساتھ اشارہ کیا گیا تھا، اس کے بعد ٹیسٹ سوال۔

مندرجہ ذیل اعداد و شمار اس انٹرفیس کو ظاہر کرتا ہے جسے ہم استعمال کرتے ہیں۔ تشریح کرنے والوں کو سوال، ماڈل سے تیار کردہ جواب، اور وضاحت کو مراحل میں تقسیم کیا جاتا ہے۔

ہر سوال کے لیے، ہم نے درج ذیل تاثرات جمع کیے:

سوالات - تشریح کرنے والے اصل سوال کو آسان سوالوں میں تبدیل کرتے ہیں جو اصل سوال کا جواب دینے کے لیے درکار ہوتے ہیں۔ یہ ٹاسک ایک پائلٹ کے بعد شامل کیا گیا جہاں ہم نے پایا کہ اس ٹاسک کو شامل کرنے سے تشریح کرنے والوں کو تیار کرنے اور باقی کاموں کے معیار کو بہتر بنانے میں مدد ملتی ہے۔
تصحیح - تشریح کرنے والوں کو ماڈل کے ذریعے تیار کردہ جواب اور وضاحت سے پہلے سے بھرا ہوا ایک مفت فارم ٹیکسٹ باکس فراہم کیا جاتا ہے، اور صحیح جواب اور وضاحت حاصل کرنے کے لیے اس میں ترمیم کرنے کو کہا جاتا ہے۔
غلطی کی قسم - ماڈل جنریشنز (حقیقی خرابی، گمشدہ حقائق، غیر متعلقہ حقائق، اور منطقی عدم مطابقت) میں پائی جانے والی غلطی کی سب سے عام قسموں میں سے، تشریح کرنے والوں سے کہا گیا کہ وہ غلطی کی ایک یا زیادہ اقسام کو منتخب کریں جو دیئے گئے جواب اور وضاحت پر لاگو ہوں۔
غلطی کی تفصیل - تشریح کرنے والوں کو ہدایت کی گئی تھی کہ وہ نہ صرف غلطیوں کی درجہ بندی کریں بلکہ ان کی درجہ بندی کے لیے ایک جامع جواز بھی فراہم کریں، بشمول درست قدم کی نشاندہی کرنا جہاں غلطی ہوئی ہے اور یہ فراہم کردہ جواب اور وضاحت پر کیسے لاگو ہوتا ہے۔

ہم کیا کرتے تھے ایمیزون سیج میکر گراؤنڈ ٹروتھ پلس ہمارے ڈیٹا اکٹھا کرنے میں۔ ڈیٹا اکٹھا کرنے کا عمل متعدد دوروں میں ہوا۔ ہم نے پہلے بالترتیب 30 مثالوں اور 200 مثالوں کے دو چھوٹے پائلٹس کیے، جس کے بعد تشریح کرنے والی ٹیم کو تشریح پر تفصیلی رائے دی گئی۔ اس کے بعد ہم نے StrategyQA کے لیے دو بیچوں پر ڈیٹا اکٹھا کیا، اور اسپورٹس انڈرسٹینڈنگ کے لیے ایک بیچ سے زیادہ، وقتاً فوقتاً فیڈ بیک دیتے ہوئے- کل 10 اینوٹیٹرز نے تقریباً 1 ماہ کے عرصے میں اس کام پر کام کیا۔

ہم نے StrategyQA کے لیے کل 1,565 مثالوں اور کھیلوں کی تفہیم کے لیے 796 مثالوں پر رائے اکٹھی کی۔ مندرجہ ذیل جدول ان مثالوں کے فیصد کو واضح کرتا ہے جو ماڈل جنریشن میں غلطی سے پاک تھیں اور ان مثالوں کے تناسب کو جن میں غلطی کی مخصوص قسم موجود تھی۔ یہ بات قابل غور ہے کہ کچھ مثالوں میں ایک سے زیادہ غلطی کی قسم ہو سکتی ہے۔

خرابی کی قسم	حکمت عملی کیو اے	کھیلوں کی تفہیم
کوئی بھی نہیں	17.6٪	31.28٪
حقائق کی خرابی۔	27.6٪	38.1٪
گمشدہ حقائق	50.4٪	46.1٪
غیر متعلقہ حقائق	14.6٪	3.9٪
منطقی عدم مطابقت	11.2٪	5.2٪

الگورتھم سیکھنا

ہر سوال کے لیے q، اور ماڈل سے تیار کردہ جواب اور وضاحت m، ہم نے درج ذیل تاثرات جمع کیے: درست جواب اور وضاحت cمیں موجود غلطی کی قسم m (کی طرف سے اشارہ t)، اور غلطی کی تفصیل dجیسا کہ پچھلے حصے میں بیان کیا گیا ہے۔

ہم نے مندرجہ ذیل طریقے استعمال کیے:

ملٹی ٹاسک سیکھنا - دستیاب متنوع تاثرات سے سیکھنے کے لیے ایک سادہ سی بنیاد یہ ہے کہ ان میں سے ہر ایک کو علیحدہ کام کے طور پر پیش کیا جائے۔ مزید ٹھوس طور پر، ہم مقصد کے ساتھ Flan-T5 (ٹیکسٹ ٹو ٹیکسٹ) کو ٹھیک کرتے ہیں۔ زیادہ سے زیادہ p(c|q) + p(t|q, m) + p(d|q, m). مقصد میں ہر اصطلاح کے لیے، ہم کام کے لیے موزوں ایک علیحدہ ہدایات استعمال کرتے ہیں (مثال کے طور پر، "دئے گئے جواب میں غلطی کی پیش گوئی کریں")۔ ہم دوٹوک متغیر کو بھی تبدیل کرتے ہیں۔ t فطری زبان کے جملے میں۔ تخمینہ کے دوران، ہم اصطلاح کے لیے ہدایات استعمال کرتے ہیں۔ p(c|q) ("دئے گئے سوال کے صحیح جواب کی پیش گوئی کریں") ٹیسٹ کے سوال کا جواب تیار کرنے کے لیے۔
وزنی خود مستقل مزاجی - چین آف تھیٹ پرمپٹنگ میں خود مستقل مزاجی کی کامیابی سے حوصلہ افزائی کرتے ہوئے، ہم اس کی ایک وزنی شکل تجویز کرتے ہیں۔ ماڈل سے ہر نمونے کی وضاحت کو درست ماننے اور مجموعی ووٹ پر غور کرنے کے بجائے، ہم پہلے غور کرتے ہیں کہ آیا وضاحت درست ہے اور پھر اس کے مطابق جمع کریں۔ ہم سب سے پہلے Flan-T5 کو اسی مقصد کے ساتھ ٹھیک کرتے ہیں جیسا کہ ملٹی ٹاسک سیکھنے میں ہے۔ تخمینہ کے دوران، ایک امتحانی سوال دیا گیا۔ q، ہم ہدایات کے ساتھ متعدد ممکنہ جوابات کا نمونہ بناتے ہیں۔ p(c|q)): a1, a2، .. ، an. ہر نمونے کے جواب کے لیے ai، ہم اصطلاح کے لیے ہدایات استعمال کرتے ہیں۔ p(t|q, m) ("دئے گئے جواب میں غلطی کی پیش گوئی کریں") اس بات کی نشاندہی کرنے کے لیے کہ آیا اس میں غلطی ہے۔ ti = argmax p(t|q, a_i). ہر ایک جواب ai اگر یہ درست ہے تو اسے 1 کا وزن تفویض کیا جاتا ہے، بصورت دیگر اسے 1 (ٹیون ایبل ہائپر پیرامیٹر) سے چھوٹا وزن تفویض کیا جاتا ہے۔ حتمی جواب تمام جوابات پر وزنی ووٹ پر غور کرکے حاصل کیا جاتا ہے۔ a1 کرنے کے لئے an.
تکراری تطہیر - پچھلے مجوزہ طریقوں میں، ماڈل براہ راست درست جواب تیار کرتا ہے۔ c سوال پر مشروط q. یہاں ہم ماڈل سے تیار کردہ جواب کو بہتر کرنے کی تجویز کرتے ہیں۔ m دیئے گئے سوال کا صحیح جواب حاصل کرنے کے لیے۔ مزید خاص طور پر، ہم سب سے پہلے Flan-T5 (مقصد کے ساتھ متن سے متن) کو ٹھیک کرتے ہیں۔ p(t; c|q, m) کو زیادہ سے زیادہ کریں، کہاں ; concatenation (غلطی کی قسم t صحیح جواب کے بعد c)۔ اس مقصد کو دیکھنے کا ایک طریقہ یہ ہے کہ ماڈل کو پہلے دی گئی نسل میں غلطی کی نشاندہی کرنے کی تربیت دی جاتی ہے۔ m، اور پھر صحیح جواب حاصل کرنے کے لیے اس غلطی کو دور کرنے کے لیے c. قیاس کے دوران، ہم ماڈل کو تکراری طور پر استعمال کر سکتے ہیں جب تک کہ یہ درست جواب پیدا نہ کر لے۔ q، ہم سب سے پہلے ابتدائی ماڈل جنریشن حاصل کرتے ہیں۔ m (پہلے سے تربیت یافتہ Flan-T5 کا استعمال کرتے ہوئے)۔ پھر ہم تکراری طور پر غلطی کی قسم تیار کرتے ہیں۔ ti اور ممکنہ درست جواب ci جب تک ti = کوئی غلطی نہیں۔ (عملی طور پر، ہم نے ایک ہائپر پیرامیٹر پر تکرار کی زیادہ سے زیادہ تعداد مقرر کی ہے)، اس صورت میں حتمی درست جواب ہوگا ci-1 (سے حاصل کی p(ti ; ci | q, ci-1)).

نتائج کی نمائش

دونوں ڈیٹا سیٹس کے لیے، ہم تمام مجوزہ سیکھنے کے الگورتھم کا سیاق و سباق میں سیکھنے کی بیس لائن سے موازنہ کرتے ہیں۔ تمام ماڈلز کا جائزہ اسٹریٹجی کیو اے اور اسپورٹس انڈرسٹینڈنگ کے ڈیو سیٹ پر کیا جاتا ہے۔ مندرجہ ذیل جدول نتائج دکھاتا ہے۔

طریقہ	حکمت عملی کیو اے	کھیلوں کی تفہیم
Flan-T5 4 شاٹ چین آف تھوٹ ان سیاق و سباق سیکھنا	67.39 ± 2.6٪	58.5٪
ملٹی ٹاسک سیکھنا	66.22 ± 0.7٪	54.3 ± 2.1٪
وزنی خود کی مستقل مزاجی	61.13 ± 1.5٪	51.3 ± 1.9٪
تکراری تطہیر	61.85 ± 3.3٪	57.0 ± 2.5٪

جیسا کہ مشاہدہ کیا گیا ہے، کچھ طریقے سیاق و سباق میں سیکھنے کی بنیادی لائن (اسٹرٹیجی کیو اے کے لیے ملٹی ٹاسک، اور کھیلوں کی تفہیم کے لیے تکراری تطہیر) کے مقابلے کی کارکردگی کا مظاہرہ کرتے ہیں، جو ماڈل آؤٹ پٹس پر انسانوں سے جاری فیڈ بیک جمع کرنے اور زبان کے ماڈلز کو بہتر بنانے کے لیے استعمال کرنے کی صلاحیت کو ظاہر کرتا ہے۔ یہ RLHF جیسے حالیہ کام سے مختلف ہے، جہاں تاثرات واضح اور عام طور پر بائنری تک محدود ہوتے ہیں۔

جیسا کہ مندرجہ ذیل جدول میں دکھایا گیا ہے، ہم تحقیق کرتے ہیں کہ استدلال کی غلطیوں پر انسانی تاثرات کے ساتھ موافقت پذیر ماڈل کس طرح انشانکن کو بہتر بنانے یا اعتماد کے ساتھ غلط وضاحتوں کے بارے میں آگاہی میں مدد کر سکتے ہیں۔ اس کا اندازہ ماڈل کو یہ پیشین گوئی کرنے کا اشارہ دے کر کیا جاتا ہے کہ آیا اس کی نسل میں کوئی خامی ہے۔

طریقہ	غلطی کی درستگی	حکمت عملی کیو اے
Flan-T5 4 شاٹ چین آف تھوٹ ان سیاق و سباق سیکھنا	نہیں	30.17٪
ملٹی ٹاسک فائن ٹیونڈ ماڈل	جی ہاں	73.98٪

مزید تفصیل میں، ہم زبان کے ماڈل کو اس کے اپنے تیار کردہ جواب اور استدلال کی زنجیر کے ساتھ اشارہ کرتے ہیں (جس کے لیے ہم نے تاثرات جمع کیے ہیں)، اور پھر اسے نسل میں غلطی کی پیشین گوئی کرنے کے لیے دوبارہ اشارہ کرتے ہیں۔ ہم کام کے لیے مناسب ہدایات استعمال کرتے ہیں ("جواب میں غلطی کی شناخت کریں")۔ ماڈل کو درست طریقے سے اسکور کیا جاتا ہے اگر یہ نسل میں "کوئی غلطی" یا "درست" کی پیشن گوئی کرتا ہے اگر تشریح کاروں نے مثال کو کوئی غلطی نہ ہونے کے طور پر لیبل کیا ہے، یا اگر یہ نسل میں غلطی کی کسی بھی قسم کی پیش گوئی کرتا ہے ("غلط" یا "کے ساتھ" غلط") جب تشریح کرنے والوں نے اسے غلطی کا لیبل لگایا۔ نوٹ کریں کہ ہم ماڈل کی غلطی کی قسم کو درست طریقے سے شناخت کرنے کی صلاحیت کا اندازہ نہیں لگاتے ہیں، بلکہ اگر کوئی غلطی موجود ہے۔ یہ تشخیص StrategyQA دیو سیٹ سے 173 اضافی مثالوں کے ایک سیٹ پر کیا جاتا ہے جو جمع کیے گئے تھے، جو فائن ٹیوننگ کے دوران نہیں دیکھے جاتے ہیں۔ ان میں سے چار مثالیں لینگویج ماڈل (پچھلے جدول میں پہلی قطار) کے لیے مختص ہیں۔

نوٹ کریں کہ ہم 0 شاٹ بیس لائن نتیجہ نہیں دکھاتے ہیں کیونکہ ماڈل مفید ردعمل پیدا کرنے سے قاصر ہے۔ ہم مشاہدہ کرتے ہیں کہ استدلال کی زنجیروں پر غلطی کی اصلاح کے لیے انسانی آراء کا استعمال ماڈل کی پیشین گوئی کو بہتر بنا سکتا ہے کہ آیا یہ غلطیاں کرتا ہے یا نہیں، جو غلط وضاحتوں کے بارے میں آگاہی یا انشانکن کو بہتر بنا سکتا ہے۔

نتیجہ

اس پوسٹ میں، ہم نے دکھایا کہ انسانی فیڈ بیک ڈیٹاسیٹس کو کس طرح ٹھیک ٹھیک غلطیوں سے درست کیا جائے، جو LLMs کی استدلال کی صلاحیتوں کو بہتر بنانے کا ایک متبادل طریقہ ہے۔ تجرباتی نتائج اس بات کی تصدیق کرتے ہیں کہ استدلال کی غلطیوں پر انسانی تاثرات چیلنجنگ ملٹی ہاپ سوالات پر کارکردگی اور انشانکن کو بہتر بنا سکتے ہیں۔

اگر آپ اپنے بڑے زبان کے ماڈلز کو بہتر بنانے کے لیے انسانی تاثرات تلاش کر رہے ہیں، تو ملاحظہ کریں۔ ایمیزون سیج میکر ڈیٹا لیبلنگ اور گراؤنڈ ٹروتھ پلس کنسول۔

مصنفین کے بارے میں

ایرن لی ہیومین ان دی لوپ سروسز، AWS AI، Amazon میں اپلائیڈ سائنس مینیجر ہے۔ اس کی تحقیقی دلچسپیاں 3D گہری تعلیم، اور وژن اور زبان کی نمائندگی کی تعلیم ہیں۔ اس سے پہلے وہ Alexa AI میں سینئر سائنسدان، Scale AI میں مشین لرننگ کے سربراہ اور Pony.ai کے چیف سائنٹسٹ تھے۔ اس سے پہلے، وہ Uber ATG میں پرسیپشن ٹیم اور Uber میں مشین لرننگ پلیٹ فارم ٹیم کے ساتھ تھا جو خود مختار ڈرائیونگ، مشین لرننگ سسٹمز اور AI کے اسٹریٹجک اقدامات کے لیے مشین لرننگ پر کام کر رہی تھی۔ انہوں نے اپنا کیریئر بیل لیبز سے شروع کیا اور کولمبیا یونیورسٹی میں منسلک پروفیسر رہے۔ اس نے ICML'17 اور ICCV'19 میں ٹیوٹوریلز کو مشترکہ طور پر پڑھایا، اور NeurIPS، ICML، CVPR، ICCV میں خود مختار ڈرائیونگ، 3D ویژن اور روبوٹکس، مشین لرننگ سسٹم اور ایڈورسریل مشین لرننگ کے لیے مشین لرننگ پر متعدد ورکشاپس کا مشترکہ اہتمام کیا۔ انہوں نے کارنیل یونیورسٹی میں کمپیوٹر سائنس میں پی ایچ ڈی کی ہے۔ وہ ACM فیلو اور IEEE فیلو ہے۔

نتیش جوشی AWS AI، Amazon میں اپلائیڈ سائنس انٹرن تھا۔ وہ نیو یارک یونیورسٹی کے کورنٹ انسٹی ٹیوٹ آف میتھمیٹیکل سائنسز میں کمپیوٹر سائنس میں پی ایچ ڈی کا طالب علم ہے۔ وہ مشین لرننگ اور نیچرل لینگویج پروسیسنگ پر کام کرتا ہے، اور وہ مشین لرننگ فار لینگویج (ML2) ریسرچ گروپ سے وابستہ تھا۔ وہ وسیع پیمانے پر زبان کی مضبوط سمجھ بوجھ میں دلچسپی رکھتا تھا: دونوں ایسے ماڈلز بنانے میں جو تقسیم کی تبدیلیوں کے لیے مضبوط ہوں (مثال کے طور پر انسان کے اندر لوپ ڈیٹا کو بڑھانے کے ذریعے) اور ماڈلز کی مضبوطی کا اندازہ کرنے/اس کی پیمائش کرنے کے بہتر طریقے ڈیزائن کرنے میں۔ وہ سیاق و سباق میں سیکھنے اور اس کے کام کرنے کے طریقے کو سمجھنے میں حالیہ پیش رفت کے بارے میں بھی متجسس رہا ہے۔

کمار چیلاپیلا ایمیزون ویب سروسز میں ایک جنرل مینیجر اور ڈائریکٹر ہیں اور ML/AI سروسز جیسے ہیومن ان لوپ سسٹمز، AI DevOps، Geospatial ML، اور ADAS/خودکار گاڑیوں کی ترقی کی رہنمائی کرتے ہیں۔ AWS سے پہلے، کمار Uber ATG اور Lyft Level 5 میں انجینئرنگ کے ڈائریکٹر تھے اور مشین لرننگ کا استعمال کرتے ہوئے ٹیموں کی قیادت کرتے تھے تاکہ پرسیپشن اور میپنگ جیسی سیلف ڈرائیونگ صلاحیتوں کو فروغ دیا جا سکے۔ اس نے LinkedIn، Twitter، Bing، اور Microsoft Research پر تلاش، سفارشات، اور اشتہاری مصنوعات کو بہتر بنانے کے لیے مشین لرننگ تکنیکوں کو لاگو کرنے پر بھی کام کیا۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹوآئ اسٹریم۔ ویب 3 ڈیٹا انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
ایڈریین ایشلے کے ساتھ مستقبل کا نقشہ بنانا۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/improve-multi-hop-reasoning-in-llms-by-learning-from-rich-human-feedback/

جنریٹیو ڈیٹا انٹیلی جنس

بھرپور انسانی تاثرات سے سیکھ کر LLMs میں ملٹی ہاپ استدلال کو بہتر بنائیں

حل جائزہ

ڈیٹا کلیکشن

الگورتھم سیکھنا

نتائج کی نمائش

نتیجہ

مصنفین کے بارے میں

تازہ ترین انٹیلی جنس

قانون سازوں نے قومی سلامتی کے خدشات کے درمیان ممکنہ ٹک ٹاک پابندی کے ساتھ بل پاس کیا کیونکہ رابن ہڈ نے ریکارڈ آمدنی اور کرپٹو مارکیٹس ملے جلے اشارے دکھائے

امریکی قانون سازوں نے قومی سلامتی کے خدشات پر ممکنہ طور پر ٹِک ٹاک پر پابندی لگانے کے بل کی منظوری دے دی۔

امریکی قانون سازوں نے میم اسٹاک کریز کے بعد سیکیورٹی خدشات اور رابن ہڈ آئیز کی ریکارڈ آمدنی کے درمیان ممکنہ طور پر ٹِک ٹاک پر پابندی لگانے کا بل پاس کیا۔

ڈیجیٹل کراس روڈ پر تشریف لے جانا: امریکی قانون سازوں نے رازداری کے خدشات کے درمیان ٹک ٹاک پر پابندی کے بل کی منظوری دی، جبکہ کرپٹو اور میمی اسٹاک میں اضافہ

امریکی قانون سازوں نے سیکیورٹی خدشات پر ٹک ٹاک پر پابندی لگانے کا بل پاس کیا: بڑھتے ہوئے خدشات اور ممکنہ اثرات

TikTok پر قانون ساز کراسشیر: امریکی قانون سازوں نے رازداری کے خدشات اور قومی سلامتی کے درمیان پابندی کا بل پاس کیا۔