জেনারেটিভ ডেটা ইন্টেলিজেন্স

AI বটগুলি হ্যালুসিনেট সফ্টওয়্যার প্যাকেজ এবং devs সেগুলি ডাউনলোড করে৷

তারিখ:

ইন গভীরতা বেশ কয়েকটি বড় ব্যবসা সোর্স কোড প্রকাশ করেছে যা একটি সফ্টওয়্যার প্যাকেজ অন্তর্ভুক্ত করে যা পূর্বে জেনারেটিভ এআই দ্বারা হ্যালুসিনেড ছিল।

শুধু তাই নয়, কেউ এই পুনরাবৃত্ত হ্যালুসিনেশন দেখে সেই তৈরি নির্ভরতাকে বাস্তবে পরিণত করেছিল, যা পরবর্তীতে AI এর খারাপ পরামর্শের ফলে বিকাশকারীদের দ্বারা হাজার হাজার বার ডাউনলোড এবং ইনস্টল করা হয়েছিল, আমরা শিখেছি। যদি প্যাকেজটি একটি সৌম্য পরীক্ষা না হয়ে প্রকৃত ম্যালওয়্যার দিয়ে তৈরি হয়, তাহলে ফলাফল বিপর্যয়কর হতে পারত।

ল্যাসো সিকিউরিটির নিরাপত্তা গবেষক বার ল্যানিয়াডোর মতে, প্যাকেজটি অন্তর্ভুক্ত করার জন্য AI দ্বারা বোকা বানানো ব্যবসাগুলির মধ্যে একটি হল আলিবাবা, যা লেখার সময় এখনও অন্তর্ভুক্ত ছিল pip হুকুম পাইথন প্যাকেজ ডাউনলোড করতে huggingface-cli এটার ভিতর গ্রাফ অনুবাদক সংস্থাপনের নির্দেশনা.

একটি বৈধ আছে আলিঙ্গন মুখ-cli, ব্যবহার করে ইনস্টল করা হয়েছে pip install -U "huggingface_hub[cli]".

কিন্তু huggingface-cli পাইথন প্যাকেজ ইনডেক্স (PyPI) এর মাধ্যমে বিতরণ করা হয়েছে এবং আলিবাবার গ্রাফ ট্রান্সলেটর দ্বারা প্রয়োজনীয় - ব্যবহার করে ইনস্টল করা হয়েছে pip install huggingface-cli - এটি নকল, এআই দ্বারা কল্পনা করা হয়েছে এবং ল্যানিয়াডো একটি পরীক্ষা হিসাবে বাস্তবে পরিণত করেছে৷

সে তৈরী করেছিল huggingface-cli জেনারেটিভ এআই দ্বারা বারবার হ্যালুসিনেশন দেখার পর ডিসেম্বরে; এই বছরের ফেব্রুয়ারির মধ্যে, আলিবাবা আসল আলিঙ্গন ফেস সিএলআই টুলের পরিবর্তে গ্রাফ ট্রান্সলেটরের README নির্দেশাবলীতে এটি উল্লেখ করছিল।

অধ্যয়ন

ল্যানিয়াডো এই ধরণের হ্যালুসিনেটেড সফ্টওয়্যার প্যাকেজগুলি অন্বেষণ করতে করেছিলেন - প্যাকেজ নামগুলি যা জেনারেটিভ এআই মডেল দ্বারা উদ্ভাবিত হয়েছিল, সম্ভবত প্রকল্পের বিকাশের সময় - সময়ের সাথে সাথে টিকে থাকে এবং এটি পরীক্ষা করার জন্য যে উদ্ভাবিত প্যাকেজের নামগুলি সহ-অপ্ট করা যায় এবং প্রকৃত লিখে দূষিত কোড বিতরণ করতে ব্যবহার করা যায় কিনা। যে প্যাকেজগুলি AIs দ্বারা স্বপ্নে দেখা কোডের নাম ব্যবহার করে৷

এখানে ধারণা হল যে কেউ খারাপ মডেলদের কোড পরামর্শের জন্য জিজ্ঞাসা করতে পারে, কল্পনা করা প্যাকেজগুলির একটি নোট তৈরি করতে পারে AI সিস্টেমগুলি বারবার সুপারিশ করে এবং তারপর সেই নির্ভরতাগুলি বাস্তবায়ন করে যাতে অন্যান্য প্রোগ্রামাররা, একই মডেলগুলি ব্যবহার করার সময় এবং একই পরামর্শ পাওয়ার সময়, শেষ পর্যন্ত টানতে পারে। সেই লাইব্রেরিগুলি, যা ম্যালওয়্যার দ্বারা বিষাক্ত হতে পারে৷

গত বছর নিরাপত্তা ফার্ম Vulcan Cyber, Lanyado এর মাধ্যমে প্রকাশিত ChatGPT-এর মতো একটি এআই মডেলের কাছে কীভাবে কেউ একটি কোডিং প্রশ্ন করতে পারে এবং একটি সফ্টওয়্যার লাইব্রেরি, প্যাকেজ বা ফ্রেমওয়ার্ক ব্যবহার করার সুপারিশ করে এমন একটি উত্তর পেতে পারে তার বিশদ বিবরণ দিয়ে গবেষণা।

"যখন একজন আক্রমণকারী এই ধরনের একটি প্রচার চালায়, তখন সে মডেলটিকে প্যাকেজগুলির জন্য জিজ্ঞাসা করবে যা একটি কোডিং সমস্যা সমাধান করে, তারপর সে এমন কিছু প্যাকেজ পাবে যা বিদ্যমান নেই," ল্যানিয়াডো ব্যাখ্যা করেছিলেন নিবন্ধনকর্মী. "তিনি যথাযথ রেজিস্ট্রিগুলিতে একই নামের সাথে দূষিত প্যাকেজগুলি আপলোড করবেন এবং সেই বিন্দু থেকে, তাকে যা করতে হবে তা হল লোকেদের প্যাকেজগুলি ডাউনলোড করার জন্য অপেক্ষা করা।"

বিপজ্জনক অনুমান

আত্মবিশ্বাসের সাথে এআই মডেলের ইচ্ছা অস্তিত্বহীন আদালতের মামলা উদ্ধৃত করুন এখন সুপরিচিত এবং এই প্রবণতা সম্পর্কে অজ্ঞাত অ্যাটর্নিদের মধ্যে সামান্য পরিমাণ বিব্রত সৃষ্টি করেনি। এবং এটি দেখা যাচ্ছে, জেনারেটিভ এআই মডেলগুলি সফ্টওয়্যার প্যাকেজের জন্য একই কাজ করবে।

ল্যানিয়াডো পূর্বে উল্লেখ করেছে, একজন দুর্বৃত্ত কিছু সংগ্রহস্থলে আপলোড করা একটি দূষিত প্যাকেজের জন্য একটি AI-আবিষ্কৃত নাম ব্যবহার করতে পারে এই আশায় যে অন্যরা ম্যালওয়্যার ডাউনলোড করতে পারে। কিন্তু এটি একটি অর্থপূর্ণ আক্রমণ ভেক্টর হওয়ার জন্য, এআই মডেলগুলিকে বারবার কো-অপ্ট করা নাম সুপারিশ করতে হবে।

ল্যানিয়াদো পরীক্ষা দিতে গিয়েছিলেন। হাজার হাজার "কীভাবে" প্রশ্নে সজ্জিত, তিনি পাঁচটি ভিন্ন প্রোগ্রামিং ভাষা/রানটাইম (পাইথন, Node.js, Go, .Net, এবং Ruby), যার প্রত্যেকটির নিজস্ব প্যাকেজিং সিস্টেম রয়েছে।

এটি দেখা যাচ্ছে যে এই চ্যাটবটগুলি পাতলা বাতাস থেকে বের করে আনা নামের একটি অংশ স্থায়ী, কিছু বিভিন্ন মডেল জুড়ে। এবং অধ্যবসায় – জাল নামের পুনরাবৃত্তি – AI বাতিককে একটি কার্যকরী আক্রমণে পরিণত করার মূল চাবিকাঠি। আক্রমণকারীর AI মডেলের প্রয়োজন হয় হ্যালুসিনেটেড প্যাকেজগুলির নামগুলিকে তার প্রতিক্রিয়াগুলিতে ব্যবহারকারীদের কাছে সেই নামের অধীনে তৈরি ম্যালওয়্যারগুলির জন্য অনুসন্ধান এবং ডাউনলোড করার জন্য।

ল্যানিয়াডো শূন্য-শট হ্যালুসিনেশনের জন্য এলোমেলোভাবে 20টি প্রশ্ন বেছে নিয়েছিলেন এবং প্রতিটি মডেলের কাছে 100 বার পোজ দিয়েছেন। তার লক্ষ্য ছিল কত ঘন ঘন হ্যালুসিনেটেড প্যাকেজের নাম একই থাকে তা মূল্যায়ন করা। তার পরীক্ষার ফলাফল প্রকাশ করে যে নামগুলি প্রায়শই এটি একটি কার্যকরী আক্রমণ ভেক্টর হওয়ার জন্য যথেষ্ট স্থায়ী হয়, যদিও সব সময় নয় এবং কিছু প্যাকেজিং ইকোসিস্টেমে অন্যদের চেয়ে বেশি।

GPT-4 এর সাথে, 24.2 শতাংশ প্রশ্নের উত্তর হ্যালুসিনেটেড প্যাকেজ তৈরি করেছে, যার মধ্যে 19.6 শতাংশ পুনরাবৃত্তিমূলক ছিল, ল্যানিয়াডো অনুসারে। একটি টেবিল দেওয়া নিবন্ধনকর্মী, নীচে, GPT-4 প্রতিক্রিয়াগুলির আরও বিশদ বিভাজন দেখায়৷

  পাইথন Node.js চুনি .NET Go
মোট প্রশ্ন 21340 13065 4544 5141 3713
কমপক্ষে একটি হ্যালুসিনেশন প্যাকেজ সহ প্রশ্ন 5347 (25%) 2524 (19.3%) 1072 (23.5%) 1476 (28.7%) 1093 শোষণযোগ্য (21.2%) 1150 (30.9%) 109 শোষণযোগ্য (2.9%)
জিরো শটে হ্যালুসিনেশন 1042 (4.8%) 200 (1.5%) 169 (3.7%) 211 (4.1%) 130 শোষণযোগ্য (2.5%) 225 (6%) 14 শোষণযোগ্য (0.3%)
দ্বিতীয় শটে হ্যালুসিনেশন 4532 (21%) 2390 (18.3%) 960 (21.1%) 1334 (25.9%) 1006 শোষণযোগ্য (19.5%) 974 (26.2%) 98 শোষণযোগ্য (2.6%)
শূন্য শটে পুনরাবৃত্তি 34.4% 24.8% 5.2% 14% -

GPT-3.5 এর সাথে, 22.2 শতাংশ প্রশ্নের উত্তর হ্যালুসিনেশন তৈরি করেছে, 13.6 শতাংশ পুনরাবৃত্তির সাথে। মিথুনের জন্য, 64.5টি প্রশ্ন উদ্ভাবিত নাম নিয়ে এসেছে, যার মধ্যে প্রায় 14 শতাংশ পুনরাবৃত্তি হয়েছে। এবং কোহেরের জন্য, এটি ছিল 29.1 শতাংশ হ্যালুসিনেশন, 24.2 শতাংশ পুনরাবৃত্তি।

তা সত্ত্বেও, Go এবং .Net-এর প্যাকেজিং ইকোসিস্টেমগুলি এমনভাবে তৈরি করা হয়েছে যা আক্রমণকারীদের নির্দিষ্ট পথ এবং নামগুলিতে অ্যাক্সেস অস্বীকার করে শোষণের সম্ভাবনাকে সীমিত করে৷

"গো এবং .নেট-এ আমরা হ্যালুসিনেটেড প্যাকেজ পেয়েছি কিন্তু তাদের অনেকগুলি আক্রমণের জন্য ব্যবহার করা যায়নি (গোতে সংখ্যাগুলি .নেটের তুলনায় অনেক বেশি তাৎপর্যপূর্ণ ছিল), প্রতিটি ভাষা তার নিজস্ব কারণে," ল্যানিয়াডো ব্যাখ্যা করেছিলেন নিবন্ধনকর্মী. "পাইথন এবং এনপিএম-এর ক্ষেত্রে এটি হয় না, যেহেতু মডেলটি আমাদের এমন প্যাকেজগুলির সাথে সুপারিশ করে যা বিদ্যমান নেই এবং এই নামগুলির সাথে প্যাকেজগুলি আপলোড করতে কিছুই আমাদের বাধা দেয় না, তাই অবশ্যই ভাষাগুলিতে এই ধরনের আক্রমণ চালানো অনেক সহজ। Python এবং Node.js।"

সিডিং PoC ম্যালওয়্যার

ল্যানিয়াডো প্রুফ-অফ-কনসেপ্ট ম্যালওয়্যার বিতরণ করে এই পয়েন্ট তৈরি করেছে – পাইথন ইকোসিস্টেমের ফাইলগুলির একটি নিরীহ সেট। ChatGPT এর পরামর্শের ভিত্তিতে চালানোর জন্য pip install huggingface-cli, তিনি PyPI-তে একই নামে একটি খালি প্যাকেজ আপলোড করেছেন - উপরে উল্লিখিত একটি - এবং নামে একটি ডামি প্যাকেজ তৈরি করেছেন blabladsa123 প্রকৃত ডাউনলোড প্রচেষ্টা থেকে পৃথক প্যাকেজ রেজিস্ট্রি স্ক্যানিং সাহায্য করতে.

ফলাফল, তিনি দাবি করেন, এটি huggingface-cli এটি উপলব্ধ তিন মাসে 15,000 এরও বেশি খাঁটি ডাউনলোড পেয়েছে।

"এছাড়া, আমরা এই প্যাকেজটি অন্যান্য কোম্পানির সংগ্রহস্থলের মধ্যে ব্যবহার করা হয়েছে কিনা তা নির্ধারণ করার জন্য GitHub-এ একটি অনুসন্ধান পরিচালনা করেছি," ল্যানিয়াডো বলেছেন লিখা আপ তার পরীক্ষার জন্য।

“আমাদের অনুসন্ধানে দেখা গেছে যে বেশ কয়েকটি বড় কোম্পানি তাদের সংগ্রহস্থলে এই প্যাকেজটি ব্যবহার করে বা সুপারিশ করে। উদাহরণস্বরূপ, এই প্যাকেজটি ইনস্টল করার নির্দেশাবলী আলিবাবা দ্বারা পরিচালিত গবেষণার জন্য নিবেদিত একটি সংগ্রহস্থলের README-তে পাওয়া যেতে পারে।"

আলিবাবা মন্তব্যের অনুরোধের জবাব দেয়নি।

ল্যানিয়াডো আরও বলেছে যে একটি আলিঙ্গন মুখ-মালিকানাধীন প্রকল্প ছিল যা নকল আলিঙ্গন মুখ-ক্লি-কে অন্তর্ভুক্ত করেছিল, কিন্তু সেটি অপসারণ করা হয়েছে সে বিজকে সতর্ক করার পর।

এখনও পর্যন্ত অন্তত, এই কৌশলটি প্রকৃত আক্রমণে ব্যবহার করা হয়নি যা ল্যানিয়াডো সচেতন।

"আমাদের হ্যালুসিনেটেড প্যাকেজ ছাড়াও (আমাদের প্যাকেজটি দূষিত নয় এটি এই কৌশলটি ব্যবহার করা কতটা সহজ এবং বিপজ্জনক হতে পারে তার একটি উদাহরণ), আমি এখনও দূষিত অভিনেতাদের দ্বারা এই আক্রমণের কৌশলটি সনাক্ত করতে পারিনি," তিনি বলেছিলেন। "এটি লক্ষ্য করা গুরুত্বপূর্ণ যে এই ধরনের আক্রমণ শনাক্ত করা জটিল, কারণ এটি অনেক পদচিহ্ন রেখে যায় না।" ®

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি

আমাদের সাথে খোস গল্প কর

হাই সেখানে! আপনাকে কিভাবে সাহায্য করতে পারি?