ذكاء البيانات التوليدية

تصميم أعباء عمل الذكاء الاصطناعي التوليدية من أجل المرونة | خدمات ويب أمازون

التاريخ:

تلعب المرونة دورًا محوريًا في تطوير أي عبء عمل، و الذكاء الاصطناعي التوليدي أعباء العمل لا تختلف. هناك اعتبارات فريدة عند هندسة أعباء عمل الذكاء الاصطناعي التوليدي من خلال عدسة المرونة. يعد فهم المرونة وتحديد أولوياتها أمرًا بالغ الأهمية لأعباء عمل الذكاء الاصطناعي المنتجة لتلبية متطلبات التوفر التنظيمي واستمرارية الأعمال. في هذا المنشور، نناقش الحزم المختلفة لأعباء عمل الذكاء الاصطناعي التوليدي وما ينبغي أن تكون عليه تلك الاعتبارات.

الذكاء الاصطناعي التوليدي الكامل

على الرغم من أن الكثير من الإثارة حول الذكاء الاصطناعي التوليدي يركز على النماذج، إلا أن الحل الكامل يتضمن أشخاصًا ومهارات وأدوات من عدة مجالات. خذ بعين الاعتبار الصورة التالية، وهي عرض AWS لمكدس التطبيقات الناشئة a16z لنماذج اللغات الكبيرة (LLMs).

تصنيف LLM App Stack على AWS

بالمقارنة مع الحلول التقليدية المبنية على الذكاء الاصطناعي والتعلم الآلي (ML)، يتضمن حل الذكاء الاصطناعي التوليدي الآن ما يلي:

  • أدوار جديدة - عليك أن تفكر في موالفات النماذج وكذلك منشئي النماذج ومتكاملي النماذج
  • أدوات جديدة - لا يمتد مكدس MLOps التقليدي ليشمل نوع تتبع التجربة أو إمكانية الملاحظة اللازمة للهندسة السريعة أو الوكلاء الذين يستدعون الأدوات للتفاعل مع الأنظمة الأخرى

استدلال الوكيل

على عكس نماذج الذكاء الاصطناعي التقليدية، يسمح الجيل المعزز للاسترجاع (RAG) باستجابات أكثر دقة وملاءمة للسياق من خلال دمج مصادر المعرفة الخارجية. فيما يلي بعض الاعتبارات عند استخدام RAG:

  • يعد تحديد المهلات المناسبة أمرًا مهمًا لتجربة العملاء. لا شيء يعبر عن تجربة مستخدم سيئة أكثر من كونك في منتصف الدردشة وانقطاع الاتصال.
  • تأكد من التحقق من صحة بيانات الإدخال الفوري وحجم الإدخال الفوري لحدود الأحرف المخصصة التي يحددها النموذج الخاص بك.
  • إذا كنت تقوم بإجراء هندسة سريعة، فيجب عليك نقل مطالباتك إلى مخزن بيانات موثوق به. سيؤدي ذلك إلى حماية مطالباتك في حالة حدوث خسارة عرضية أو كجزء من إستراتيجيتك الشاملة للتعافي من الكوارث.

خطوط أنابيب البيانات

في الحالات التي تحتاج فيها إلى توفير بيانات سياقية للنموذج الأساسي باستخدام نمط RAG، فإنك تحتاج إلى خط أنابيب بيانات يمكنه استيعاب البيانات المصدر، وتحويلها إلى متجهات مضمنة، وتخزين متجهات التضمين في قاعدة بيانات متجهة. يمكن أن يكون خط الأنابيب هذا عبارة عن مسار دفعي إذا قمت بإعداد بيانات سياقية مسبقًا، أو خط أنابيب منخفض زمن الوصول إذا كنت تقوم بدمج بيانات سياقية جديدة بسرعة. في الحالة المجمعة، هناك بعض التحديات مقارنة بخطوط البيانات النموذجية.

قد تكون مصادر البيانات عبارة عن مستندات PDF على نظام ملفات، أو بيانات من نظام برنامج كخدمة (SaaS) مثل أداة CRM، أو بيانات من موقع wiki أو قاعدة معرفية موجودة. يختلف الاستيعاب من هذه المصادر عن مصادر البيانات النموذجية مثل بيانات السجل في ملف خدمة تخزين أمازون البسيطة (Amazon S3) أو البيانات المنظمة من قاعدة بيانات علائقية. قد يكون مستوى التوازي الذي يمكنك تحقيقه محدودًا بواسطة النظام المصدر، لذلك تحتاج إلى مراعاة التقييد واستخدام تقنيات التراجع. قد تكون بعض أنظمة المصدر هشة، لذا تحتاج إلى تحسين معالجة الأخطاء وإعادة محاولة المنطق.

قد يمثل نموذج التضمين عائقًا للأداء، بغض النظر عما إذا كنت تقوم بتشغيله محليًا في المسار أو استدعاء نموذج خارجي. نماذج التضمين هي نماذج أساسية تعمل على وحدات معالجة الرسومات وليس لها سعة غير محدودة. إذا كان النموذج يعمل محليًا، فستحتاج إلى تعيين العمل بناءً على سعة وحدة معالجة الرسومات. إذا كان النموذج يعمل خارجيًا، فستحتاج إلى التأكد من عدم تشبع النموذج الخارجي. في كلتا الحالتين، سيتم تحديد مستوى التوازي الذي يمكنك تحقيقه من خلال نموذج التضمين بدلاً من مقدار وحدة المعالجة المركزية وذاكرة الوصول العشوائي المتوفرة لديك في نظام المعالجة المجمعة.

في حالة زمن الوصول المنخفض، تحتاج إلى حساب الوقت المستغرق لإنشاء متجهات التضمين. يجب أن يقوم تطبيق الاستدعاء باستدعاء خط الأنابيب بشكل غير متزامن.

قواعد بيانات المتجهات

تحتوي قاعدة بيانات المتجهات على وظيفتين: تخزين المتجهات المضمنة، وإجراء بحث تشابه للعثور على الأقرب k يتطابق مع ناقل جديد. هناك ثلاثة أنواع عامة من قواعد بيانات المتجهات:

  • خيارات SaaS مخصصة مثل Pinecone.
  • ميزات قاعدة بيانات المتجهات المضمنة في الخدمات الأخرى. يتضمن ذلك خدمات AWS الأصلية مثل خدمة Amazon OpenSearch و أمازون أورورا.
  • خيارات الذاكرة التي يمكن استخدامها للبيانات العابرة في سيناريوهات الكمون المنخفض.

نحن لا نغطي إمكانيات البحث عن التشابه بالتفصيل في هذا المنشور. وعلى الرغم من أهميتها، إلا أنها تمثل جانبًا وظيفيًا للنظام ولا تؤثر بشكل مباشر على المرونة. بدلاً من ذلك، نحن نركز على جوانب المرونة لقاعدة بيانات المتجهات كنظام تخزين:

  • كمون – هل يمكن لقاعدة البيانات المتجهة أن تؤدي أداءً جيدًا في مواجهة الأحمال العالية أو غير المتوقعة؟ إذا لم يكن الأمر كذلك، فإن تطبيق الاتصال يحتاج إلى التعامل مع تحديد المعدل والتراجع وإعادة المحاولة.
  • التدرجية - كم عدد المتجهات التي يمكن للنظام أن يحملها؟ إذا تجاوزت سعة قاعدة بيانات المتجهات، فستحتاج إلى النظر في التجزئة أو الحلول الأخرى.
  • التوافر العالي والتعافي من الكوارث - يعد تضمين المتجهات بيانات قيمة، وقد تكون إعادة إنشائها مكلفة. هل قاعدة بيانات المتجهات الخاصة بك متاحة بشكل كبير في منطقة AWS واحدة؟ هل لديها القدرة على نسخ البيانات إلى منطقة أخرى لأغراض التعافي من الكوارث؟

طبقة التطبيق

هناك ثلاثة اعتبارات فريدة لطبقة التطبيق عند دمج حلول الذكاء الاصطناعي التوليدية:

  • الكمون العالي المحتمل - غالبًا ما تعمل النماذج الأساسية على مثيلات وحدة معالجة الرسومات الكبيرة وقد تكون ذات سعة محدودة. تأكد من استخدام أفضل الممارسات لتحديد المعدل والتراجع وإعادة المحاولة وفصل الأحمال. استخدم تصميمات غير متزامنة بحيث لا يتداخل زمن الوصول العالي مع الواجهة الرئيسية للتطبيق.
  • الموقف الأمني – إذا كنت تستخدم وكلاء، أو أدوات، أو مكونات إضافية، أو طرق أخرى لتوصيل نموذج بأنظمة أخرى، فاحرص على إيلاء اهتمام إضافي لوضع الأمان الخاص بك. قد تحاول النماذج التفاعل مع هذه الأنظمة بطرق غير متوقعة. اتبع الممارسة العادية المتمثلة في الوصول إلى أقل الامتيازات، على سبيل المثال تقييد المطالبات الواردة من الأنظمة الأخرى.
  • أطر سريعة التطور - تتطور الأطر مفتوحة المصدر مثل LangChain بسرعة. استخدم أسلوب الخدمات الصغيرة لعزل المكونات الأخرى عن هذه الأطر الأقل نضجًا.

الطاقة الإنتاجية

يمكننا التفكير في القدرة في سياقين: الاستدلال وخطوط أنابيب بيانات نموذج التدريب. تعتبر القدرة أحد الاعتبارات عندما تقوم المنظمات ببناء خطوط الأنابيب الخاصة بها. تعد متطلبات وحدة المعالجة المركزية والذاكرة من أكبر المتطلبات عند اختيار المثيلات لتشغيل أحمال العمل الخاصة بك.

يمكن أن يكون الحصول على المثيلات التي يمكنها دعم أعباء عمل الذكاء الاصطناعي التوليدية أكثر صعوبة من الحصول على متوسط ​​نوع المثيل للأغراض العامة. يمكن أن تساعد مرونة المثيل في تخطيط القدرات والقدرات. اعتمادًا على منطقة AWS التي تقوم بتشغيل عبء العمل الخاص بك فيها، تتوفر أنواع مختلفة من المثيلات.

بالنسبة لرحلات المستخدم المهمة، ستحتاج المؤسسات إلى التفكير إما في حجز أنواع المثيلات أو توفيرها مسبقًا لضمان التوفر عند الحاجة. يحقق هذا النمط بنية مستقرة بشكل ثابت، وهي أفضل ممارسة للمرونة. لمعرفة المزيد حول الاستقرار الثابت في ركيزة موثوقية AWS Well-Architected Framework، راجع استخدم الاستقرار الثابت لمنع السلوك الثنائي.

قابلية الملاحظة

إلى جانب مقاييس الموارد التي تجمعها عادة، مثل استخدام وحدة المعالجة المركزية وذاكرة الوصول العشوائي، تحتاج إلى مراقبة استخدام وحدة معالجة الرسومات عن كثب إذا كنت تستضيف نموذجًا على الأمازون SageMaker or الأمازون الحوسبة المرنة السحابية (أمازون إي سي 2). يمكن أن يتغير استخدام وحدة معالجة الرسومات بشكل غير متوقع إذا تغير النموذج الأساسي أو بيانات الإدخال، وقد يؤدي نفاد ذاكرة وحدة معالجة الرسومات إلى وضع النظام في حالة غير مستقرة.

في أعلى المجموعة، ستحتاج أيضًا إلى تتبع تدفق المكالمات عبر النظام، والتقاط التفاعلات بين الوكلاء والأدوات. نظرًا لأن الواجهة بين الوكلاء والأدوات أقل تعريفًا بشكل رسمي من عقد واجهة برمجة التطبيقات (API)، فيجب عليك مراقبة هذه التتبعات ليس فقط للأداء ولكن أيضًا لالتقاط سيناريوهات الأخطاء الجديدة. لمراقبة النموذج أو الوكيل بحثًا عن أي مخاطر وتهديدات أمنية، يمكنك استخدام أدوات مثل واجب الحرس الأمازون.

يجب عليك أيضًا التقاط الخطوط الأساسية لتضمين المتجهات والمطالبات والسياق والمخرجات والتفاعلات بينها. إذا تغيرت هذه مع مرور الوقت، فقد يشير ذلك إلى أن المستخدمين يستخدمون النظام بطرق جديدة، أو أن البيانات المرجعية لا تغطي مساحة الأسئلة بنفس الطريقة، أو أن مخرجات النموذج تختلف فجأة.

التعافي من الكوارث

يعد وجود خطة لاستمرارية العمل مع استراتيجية التعافي من الكوارث أمرًا ضروريًا لأي عبء عمل. لا تختلف أعباء عمل الذكاء الاصطناعي التوليدي عن ذلك. إن فهم أوضاع الفشل التي تنطبق على عبء العمل الخاص بك سيساعد في توجيه إستراتيجيتك. إذا كنت تستخدم خدمات AWS المُدارة لأعباء العمل لديك، مثل أمازون بيدروك وSageMaker، تأكد من توفر الخدمة في منطقة AWS للاسترداد الخاصة بك. حتى كتابة هذه السطور، لا تدعم خدمات AWS هذه نسخ البيانات عبر مناطق AWS محليًا، لذلك تحتاج إلى التفكير في إستراتيجيات إدارة البيانات الخاصة بك للتعافي من الكوارث، وقد تحتاج أيضًا إلى الضبط الدقيق في مناطق AWS المتعددة.

وفي الختام

وصف هذا المنشور كيفية أخذ المرونة في الاعتبار عند بناء حلول الذكاء الاصطناعي الإبداعية. على الرغم من أن تطبيقات الذكاء الاصطناعي التوليدية تحتوي على بعض الفروق الدقيقة المثيرة للاهتمام، إلا أن أنماط المرونة الحالية وأفضل الممارسات لا تزال سارية. إنها مجرد مسألة تقييم كل جزء من تطبيق الذكاء الاصطناعي التوليدي وتطبيق أفضل الممارسات ذات الصلة.

لمزيد من المعلومات حول الذكاء الاصطناعي التوليدي واستخدامه مع خدمات AWS، راجع الموارد التالية:


حول المؤلف

جينيفر موران هو أحد كبار مهندسي حلول المرونة في AWS ومقره في مدينة نيويورك. تتمتع بخلفية متنوعة، حيث عملت في العديد من التخصصات التقنية، بما في ذلك تطوير البرمجيات والقيادة الرشيقة وDevOps، وهي مناصرة للمرأة في مجال التكنولوجيا. إنها تستمتع بمساعدة العملاء على تصميم حلول مرنة لتحسين وضع المرونة وتتحدث علنًا عن جميع المواضيع المتعلقة بالمرونة.

راندي ديفوراندي ديفو هو مهندس الحلول الرئيسي الأول في AWS. وهو حاصل على ماجستير الهندسة المعمارية من جامعة ميشيغان، حيث عمل على الرؤية الحاسوبية للمركبات ذاتية القيادة. وهو حاصل أيضًا على ماجستير إدارة الأعمال من جامعة ولاية كولورادو. شغل راندي مجموعة متنوعة من المناصب في مجال التكنولوجيا، بدءًا من هندسة البرمجيات وحتى إدارة المنتجات. دخل مجال البيانات الضخمة في عام 2013 ويواصل استكشاف هذا المجال. وهو يعمل بنشاط على مشاريع في مجال تعلم الآلة وقد قدم عروضًا في العديد من المؤتمرات، بما في ذلك Strata وGlueCon.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة