جنریٹیو ڈیٹا انٹیلی جنس

ایمیزون سیج میکر گراؤنڈ ٹروتھ پلس میں چند کلک سیگمنٹیشن ماسک لیبلنگ

تاریخ:

ایمیزون سیج میکر گراؤنڈ ٹروتھ پلس ایک منظم ڈیٹا لیبلنگ سروس ہے جو مشین لرننگ (ML) ایپلیکیشنز کے لیے ڈیٹا کو لیبل کرنا آسان بناتی ہے۔ ایک عام استعمال کا معاملہ سیمنٹک سیگمنٹیشن ہے، جو کہ کمپیوٹر وژن ایم ایل تکنیک ہے جس میں کسی تصویر میں انفرادی پکسلز کو کلاس لیبل تفویض کرنا شامل ہے۔ مثال کے طور پر، چلتی گاڑی کے ذریعے کیپچر کیے گئے ویڈیو فریموں میں، کلاس لیبلز میں گاڑیاں، پیدل چلنے والے، سڑکیں، ٹریفک سگنل، عمارتیں، یا پس منظر شامل ہو سکتے ہیں۔ یہ تصویر میں موجود مختلف اشیاء کے مقامات کی اعلیٰ درستگی سے متعلق تفہیم فراہم کرتا ہے اور اسے اکثر خود مختار گاڑیوں یا روبوٹکس کے لیے پرسیپشن سسٹم بنانے کے لیے استعمال کیا جاتا ہے۔ سیمنٹک سیگمنٹیشن کے لیے ایم ایل ماڈل بنانے کے لیے، سب سے پہلے پکسل کی سطح پر ڈیٹا کی ایک بڑی مقدار کو لیبل کرنا ضروری ہے۔ یہ لیبلنگ کا عمل پیچیدہ ہے۔ اس کے لیے ہنر مند لیبلرز اور اہم وقت درکار ہوتا ہے — کچھ تصاویر کو درست طریقے سے لیبل کرنے میں 2 گھنٹے یا اس سے زیادہ وقت لگ سکتا ہے!

2019 میں ہم نے ML سے چلنے والا انٹرایکٹو لیبلنگ ٹول جاری کیا جسے آٹو سیگمنٹ فار گراؤنڈ ٹروتھ کہا جاتا ہے۔ جو آپ کو تیزی سے اور آسانی سے اعلیٰ معیار کے سیگمنٹیشن ماسک بنانے کی اجازت دیتا ہے۔ مزید معلومات کے لیے دیکھیں آٹو سیگمنٹیشن ٹول. یہ خصوصیت آپ کو کسی شے پر اوپر، بائیں، نیچے، اور دائیں سب سے زیادہ "انتہائی پوائنٹس" پر کلک کرنے کی اجازت دے کر کام کرتی ہے۔ پس منظر میں چلنے والا ایک ML ماڈل اس صارف کے ان پٹ کو ہضم کرے گا اور ایک اعلیٰ معیار کا سیگمنٹیشن ماسک واپس کرے گا جو فوری طور پر گراؤنڈ ٹروتھ لیبلنگ ٹول میں پیش کرتا ہے۔ تاہم، یہ خصوصیت آپ کو صرف چار کلک کرنے کی اجازت دیتی ہے۔ بعض صورتوں میں، ML سے تیار کردہ ماسک نادانستہ طور پر کسی تصویر کے کچھ حصوں سے محروم ہو سکتا ہے، جیسے آبجیکٹ کی باؤنڈری کے ارد گرد جہاں کنارے غیر واضح ہیں یا جہاں رنگ، سنترپتی، یا سائے ماحول میں گھل مل جاتے ہیں۔

اصلاحی کلکس کی لچکدار تعداد کے ساتھ انتہائی پوائنٹ کلک کرنا

اب ہم نے باؤنڈری پوائنٹس کے اضافی کلکس کی اجازت دینے کے لیے ٹول کو بڑھا دیا ہے، جو ایم ایل ماڈل کو ریئل ٹائم فیڈ بیک فراہم کرتا ہے۔ یہ آپ کو زیادہ درست سیگمنٹیشن ماسک بنانے کی اجازت دیتا ہے۔ مندرجہ ذیل مثال میں، سائے کے قریب کمزور حدود کی وجہ سے ابتدائی تقسیم کا نتیجہ درست نہیں ہے۔ اہم بات یہ ہے کہ یہ ٹول ایک ایسے موڈ میں کام کرتا ہے جو ریئل ٹائم فیڈ بیک کی اجازت دیتا ہے — اس کے لیے آپ کو ایک ساتھ تمام پوائنٹس کی وضاحت کرنے کی ضرورت نہیں ہے۔ اس کے بجائے، آپ پہلے چار ماؤس کلکس کر سکتے ہیں، جو ML ماڈل کو سیگمنٹیشن ماسک بنانے کے لیے متحرک کرے گا۔ اس کے بعد آپ اس ماسک کا معائنہ کر سکتے ہیں، کسی بھی ممکنہ غلطی کو تلاش کر سکتے ہیں، اور اس کے بعد ماڈل کو صحیح نتیجہ میں "نج" کرنے کے لیے مناسب اضافی کلکس کر سکتے ہیں۔

ہمارے پچھلے لیبلنگ ٹول نے آپ کو بالکل چار ماؤس کلکس (سرخ نقطے) لگانے کی اجازت دی۔ ابتدائی تقسیم کا نتیجہ (سایہ دار سرخ علاقہ) سائے کے قریب کمزور حدود (سرخ ماسک کے نیچے سے بائیں) کی وجہ سے درست نہیں ہے۔

ہمارے بہتر لیبلنگ ٹول کے ساتھ، صارف پھر سے پہلے چار ماؤس کلک کرتا ہے (سب سے اوپر کی شکل میں سرخ نقطے)۔ اس کے بعد آپ کو نتیجے میں سیگمنٹیشن ماسک (سب سے اوپر کی شکل میں سایہ دار سرخ علاقہ) کا معائنہ کرنے کا موقع ملے گا۔ آپ اضافی ماؤس کلکس (نیچے کی شکل میں سبز نقطے) بنا سکتے ہیں تاکہ ماڈل کو ماسک کو بہتر بنایا جا سکے (نیچے کی شکل میں سایہ دار سرخ علاقہ)۔

ٹول کے اصل ورژن کے مقابلے میں، بڑھا ہوا ورژن اس وقت ایک بہتر نتیجہ فراہم کرتا ہے جب اشیاء ناقابلِ شکل، غیر محدب، اور شکل و صورت میں مختلف ہوتی ہیں۔

ہم نے سیگمنٹیشن ماسک تیار کرنے کے لیے پہلے بیس لائن ٹول (صرف چار انتہائی کلکس کے ساتھ) چلا کر نمونے کے ڈیٹا پر اس بہتر ٹول کی کارکردگی کی نقالی کی اور اس کے اوسط انٹرسیکشن اوور یونین (mIoU) کا جائزہ لیا، جو کہ سیگمنٹیشن ماسک کے لیے درستگی کا ایک عام پیمانہ ہے۔ پھر ہم نے نقلی اصلاحی کلکس کا اطلاق کیا اور ہر نقلی کلک کے بعد mIoU میں بہتری کا جائزہ لیا۔ مندرجہ ذیل جدول ان نتائج کا خلاصہ کرتا ہے۔ پہلی قطار mIoU دکھاتی ہے، اور دوسری قطار غلطی کو ظاہر کرتی ہے (جو 100% مائنس سے دیا جاتا ہے)۔ صرف پانچ اضافی ماؤس کلکس کے ساتھ، ہم اس کام کے لیے غلطی کو 9% تک کم کر سکتے ہیں!

. . اصلاحی کلکس کی تعداد .
. بیس لائن 1 2 3 4 5
mIoU 72.72 76.56 77.62 78.89 80.57 81.73
خرابی 27٪ 23٪ 22٪ 21٪ 19٪ 18٪

زمینی سچائی اور کارکردگی کی پروفائلنگ کے ساتھ انضمام

اس ماڈل کو زمینی سچائی کے ساتھ مربوط کرنے کے لیے، ہم ایک معیاری فن تعمیر کی پیروی کرتے ہیں جیسا کہ درج ذیل خاکہ میں دکھایا گیا ہے۔ سب سے پہلے، ہم ایم ایل ماڈل کو ڈوکر امیج میں بناتے ہیں اور اسے تعینات کرتے ہیں۔ ایمیزون لچکدار کنٹینر رجسٹری (ایمیزون ای سی آر)، ایک مکمل طور پر منظم ڈوکر کنٹینر رجسٹری جو کنٹینر کی تصاویر کو اسٹور، شیئر اور تعینات کرنا آسان بناتی ہے۔ کا استعمال کرتے ہوئے سیج میکر انفرنس ٹول کٹ ڈوکر امیج بنانے میں ہمیں ماڈل پیش کرنے کے لیے بہترین طریقوں کو آسانی سے استعمال کرنے اور کم تاخیر کا اندازہ حاصل کرنے کی اجازت دیتا ہے۔ پھر ہم ایک بناتے ہیں۔ ایمیزون سیج میکر ماڈل کی میزبانی کے لیے ریئل ٹائم اینڈ پوائنٹ۔ ہم ایک متعارف کراتے ہیں۔ او ڈبلیو ایس لامبڈا۔ مختلف قسم کے ڈیٹا ٹرانسفارمیشن کی پیشکش کرنے کے لیے SageMaker اینڈ پوائنٹ کے سامنے ایک پراکسی کے طور پر کام کرتا ہے۔ آخر میں، ہم استعمال کرتے ہیں ایمیزون API گیٹ وے ہمارے فرنٹ اینڈ، گراؤنڈ ٹروتھ لیبلنگ ایپلیکیشن کے ساتھ مربوط ہونے کے طریقے کے طور پر، تاکہ ہمارے بیک اینڈ کو محفوظ تصدیق فراہم کی جا سکے۔

آپ مقصد سے بنائے گئے ML ٹولز کے لیے اپنے استعمال کے کیسز کے لیے اور انھیں کسٹم گراؤنڈ ٹروتھ ٹاسک UIs کے ساتھ ضم کرنے کے لیے اس عام پیٹرن کی پیروی کر سکتے ہیں۔ مزید معلومات کے لیے رجوع کریں۔ Amazon SageMaker Ground Truth کے ساتھ ایک حسب ضرورت ڈیٹا لیبلنگ ورک فلو بنائیں.

اس فن تعمیر کی فراہمی اور اپنے ماڈل کو استعمال کرنے کے بعد AWS کلاؤڈ ڈویلپمنٹ کٹ (AWS CDK)، ہم نے مختلف SageMaker مثال کی اقسام کے ساتھ اپنے ماڈل کی تاخیر کی خصوصیات کا جائزہ لیا۔ ایسا کرنا بہت سیدھا ہے کیونکہ ہم اپنے ماڈل کو پیش کرنے کے لیے SageMaker ریئل ٹائم انفرنس اینڈ پوائنٹس کا استعمال کرتے ہیں۔ سیج میکر ریئل ٹائم انفرنس اینڈ پوائنٹس بغیر کسی رکاوٹ کے ساتھ مل جاتے ہیں۔ ایمیزون کلاؤڈ واچ اور بغیر کسی مطلوبہ سیٹ اپ کے میموری کا استعمال اور ماڈل لیٹینسی جیسے میٹرکس کا اخراج کریں (دیکھیں۔ سیج میکر اینڈ پوائنٹ انوکیشن میٹرکس مزید تفصیلات کے لیے).

مندرجہ ذیل اعداد و شمار میں، ہم ماڈل لیٹنسی میٹرک دکھاتے ہیں جو مقامی طور پر SageMaker ریئل ٹائم انفرنس اینڈ پوائنٹس سے خارج ہوتا ہے۔ ہم CloudWatch میں میٹرک ریاضی کے مختلف فنکشنز کو آسانی سے لیٹینسی پرسنٹائل، جیسے p50 یا p90 لیٹنسی دکھانے کے لیے استعمال کر سکتے ہیں۔

مندرجہ ذیل جدول تین مثالوں کے لیے سیمنٹک سیگمینٹیشن کے لیے ہمارے بڑھے ہوئے انتہائی کلک کرنے والے ٹول کے لیے ان نتائج کا خلاصہ کرتا ہے: p2.xlarge، p3.2xlarge، اور g4dn.xlarge۔ اگرچہ p3.2xlarge مثال سب سے کم تاخیر فراہم کرتی ہے، لیکن g4dn.xlarge مثال بہترین لاگت سے کارکردگی کا تناسب فراہم کرتی ہے۔ g4dn.xlarge مثال p8xlarge کے مقابلے میں صرف 35% سست (3.2 ملی سیکنڈ) ہے، لیکن یہ p81xlarge کے مقابلے میں فی گھنٹہ کی بنیاد پر 3.2% کم مہنگا ہے (دیکھیں ایمیزون سیج میکر قیمتوں کا تعین SageMaker مثال کی اقسام اور قیمتوں کے بارے میں مزید تفصیلات کے لیے)۔

سیج میکر مثال کی قسم p90 تاخیر (ms)
1 p2.xlarge 751
2 p3.2x بڑا 424
3 g4dn.xlarge 459

نتیجہ

اس پوسٹ میں، ہم نے سیمنٹک سیگمنٹیشن تشریحی کاموں کے لیے گراؤنڈ ٹروتھ آٹو سیگمنٹ فیچر میں ایک توسیع متعارف کرائی ہے۔ جبکہ ٹول کا اصل ورژن آپ کو بالکل چار ماؤس کلکس کرنے کی اجازت دیتا ہے، جو ایک ماڈل کو اعلیٰ معیار کے سیگمنٹیشن ماسک فراہم کرنے کے لیے متحرک کرتا ہے، ایکسٹینشن آپ کو اصلاحی کلکس کرنے کے قابل بناتا ہے اور اس طرح بہتر پیشین گوئیاں کرنے کے لیے ML ماڈل کو اپ ڈیٹ اور رہنمائی کرتا ہے۔ ہم نے ایک بنیادی آرکیٹیکچرل پیٹرن بھی پیش کیا جسے آپ گراؤنڈ ٹروتھ لیبلنگ UIs میں انٹرایکٹو ٹولز کو تعینات اور انٹیگریٹ کرنے کے لیے استعمال کر سکتے ہیں۔ آخر میں، ہم نے ماڈل کی تاخیر کا خلاصہ کیا، اور دکھایا کہ کس طرح SageMaker ریئل ٹائم انفرنس اینڈ پوائنٹس کا استعمال ماڈل کی کارکردگی کی نگرانی کرنا آسان بناتا ہے۔

اس بارے میں مزید جاننے کے لیے کہ یہ ٹول کس طرح لیبلنگ کی لاگت کو کم کر سکتا ہے اور درستگی میں اضافہ کر سکتا ہے، ملاحظہ کریں۔ ایمیزون سیج میکر ڈیٹا لیبلنگ آج ایک مشاورت شروع کرنے کے لئے.


مصنفین کے بارے میں

جوناتھن بک ایمیزون ویب سروسز میں ایک سافٹ ویئر انجینئر ہے جو مشین لرننگ اور تقسیم شدہ نظاموں کے چوراہے پر کام کر رہا ہے۔ اس کے کام میں مشین لرننگ کے ماڈلز تیار کرنا اور جدید ترین صلاحیتوں کو صارفین کے ہاتھ میں رکھنے کے لیے مشین لرننگ کے ذریعے طاقتور سافٹ ویئر ایپلی کیشنز تیار کرنا شامل ہے۔

لی ایرن لی ہیومین ان دی لوپ سروسز، AWS AI، Amazon میں اپلائیڈ سائنس مینیجر ہے۔ اس کی تحقیقی دلچسپیاں 3D گہری تعلیم، اور وژن اور زبان کی نمائندگی کی تعلیم ہیں۔ اس سے پہلے وہ Alexa AI میں سینئر سائنسدان، Scale AI میں مشین لرننگ کے سربراہ اور Pony.ai کے چیف سائنٹسٹ تھے۔ اس سے پہلے، وہ Uber ATG میں پرسیپشن ٹیم اور Uber میں مشین لرننگ پلیٹ فارم ٹیم کے ساتھ تھا جو خود مختار ڈرائیونگ، مشین لرننگ سسٹمز اور AI کے اسٹریٹجک اقدامات کے لیے مشین لرننگ پر کام کر رہی تھی۔ انہوں نے اپنا کیریئر بیل لیبز سے شروع کیا اور کولمبیا یونیورسٹی میں منسلک پروفیسر رہے۔ اس نے ICML'17 اور ICCV'19 میں ٹیوٹوریلز کو مشترکہ طور پر پڑھایا، اور NeurIPS، ICML، CVPR، ICCV میں خود مختار ڈرائیونگ، 3D ویژن اور روبوٹکس، مشین لرننگ سسٹم اور ایڈورسریل مشین لرننگ کے لیے مشین لرننگ پر متعدد ورکشاپس کا مشترکہ اہتمام کیا۔ انہوں نے کارنیل یونیورسٹی میں کمپیوٹر سائنس میں پی ایچ ڈی کی ہے۔ وہ ACM فیلو اور IEEE فیلو ہے۔

اسپاٹ_مگ

تازہ ترین انٹیلی جنس

اسپاٹ_مگ