ذكاء البيانات التوليدية

Gemma متاحة الآن في Amazon SageMaker JumpStart | خدمات الويب الأمازون

التاريخ:

اليوم، يسعدنا أن نعلن أن برعم النموذج متاح الآن للعملاء الذين يستخدمون أمازون سيج ميكر جومب ستارت. جيما هي عائلة مكونة من نماذج اللغة استنادًا إلى نماذج Gemini من Google، والتي تم تدريبها على ما يصل إلى 6 تريليون رمز نصي. تتكون عائلة جيما من حجمين: نموذج ذو 7 مليارات معلمة ونموذج ذو 2 مليار معلمة. الآن، يمكنك استخدام نماذج Gemma 2B وGemma 7B المدربة مسبقًا والمضبوطة حسب التعليمات بداخلها سيج ميكر جومب ستارت. JumpStart هو مركز التعلم الآلي (ML) لـ SageMaker الذي يوفر الوصول إلى نماذج الأساس بالإضافة إلى الخوارزميات المضمنة وقوالب الحلول الشاملة لمساعدتك على البدء بسرعة مع ML.

في هذا المنشور، سنتعرف على كيفية نشر نموذج Gemma وضبطه ليناسب حالات الاستخدام الخاصة بك في SageMaker JumpStart. دفتر الملاحظات الكامل متاح على GitHub جيثب:.

نموذج جيما

برعم هي عائلة خفيفة الوزن ومتطورة عارضات ازياء بنيت من نفس البحث والتكنولوجيا المستخدمة لإنشاء الجوزاء عارضات ازياء. تم تطوير Gemma بواسطة Google DeepMind وفرق أخرى عبر Google، وهي مستوحاة من Gemini. تُظهر جيما قدرات عامة قوية في مجالات النصوص ومهارات فهم واستدلال متطورة على نطاق واسع. إنه يحقق أداء أفضل مقارنة بالنماذج الأخرى المتاحة للجمهور ذات المقاييس المماثلة أو الأكبر عبر مجالات مختلفة، بما في ذلك الإجابة على الأسئلة، والتفكير المنطقي، والرياضيات والعلوم، والبرمجة. أصدرت جيما أوزان النموذج لدعم ابتكار المطورين باستخدام نماذج جيما. تم إطلاق جيما بمنتج جديد مجموعة أدوات الذكاء الاصطناعي التوليدية المسؤولة الذي يوفر التوجيه والأدوات الأساسية لإنشاء تطبيقات ذكاء اصطناعي أكثر أمانًا باستخدام Gemma.

نماذج الأساس في SageMaker

يوفر JumpStart الوصول إلى مجموعة من النماذج من محاور النماذج الشهيرة بما في ذلك Hugging Face و PyTorch Hub و TensorFlow Hub ، والتي يمكنك استخدامها ضمن سير عمل تطوير ML الخاص بك في SageMaker. أدت التطورات الحديثة في ML إلى ظهور فئة جديدة من النماذج المعروفة باسم نماذج الأساس، والتي يتم تدريبها عادةً على مليارات من المعلمات وقابلة للتكيف مع فئة واسعة من حالات الاستخدام ، مثل تلخيص النص ، وإنشاء الفن الرقمي ، وترجمة اللغة. نظرًا لأن تدريب هذه النماذج غالي الثمن ، يرغب العملاء في استخدام نماذج الأساس الحالية المدربة مسبقًا وضبطها حسب الحاجة ، بدلاً من تدريب هذه النماذج بأنفسهم. يوفر SageMaker قائمة منسقة من النماذج التي يمكنك الاختيار من بينها على وحدة تحكم SageMaker.

يمكنك الآن العثور على نماذج الأساس من موفري نماذج مختلفين داخل JumpStart، مما يتيح لك البدء في استخدام نماذج الأساس بسرعة. يمكنك العثور على نماذج أساسية بناءً على مهام مختلفة أو موفري نماذج، ومراجعة خصائص النموذج وشروط الاستخدام. يمكنك أيضًا تجربة هذه النماذج باستخدام أداة اختبار واجهة المستخدم. عندما تريد استخدام نموذج أساسي على نطاق واسع، يمكنك القيام بذلك دون مغادرة SageMaker باستخدام دفاتر الملاحظات المعدة مسبقًا من موفري النماذج. ونظرًا لاستضافة النماذج ونشرها على AWS، فلن تتم مشاركة بياناتك، سواء تم استخدامها لتقييم النموذج أو استخدامه على نطاق واسع، مع أطراف ثالثة أبدًا.

دعنا نستكشف كيف يمكنك استخدام نموذج Llama Guard في JumpStart.

استكشف نموذج جيما في Jumpstart

يمكنك الوصول إلى نماذج مؤسسة Gemma من خلال SageMaker JumpStart في SageMaker Studio UI وSageMaker Python SDK. في هذا القسم، سنتعرف على كيفية اكتشاف النماذج في SageMaker Studio.

SageMaker Studio عبارة عن بيئة تطوير متكاملة (IDE) توفر واجهة مرئية واحدة قائمة على الويب حيث يمكنك الوصول إلى الأدوات المصممة لهذا الغرض لتنفيذ جميع خطوات تطوير تعلم الآلة، بدءًا من إعداد البيانات وحتى إنشاء نماذج تعلم الآلة وتدريبها ونشرها. لمزيد من التفاصيل حول كيفية البدء وإعداد SageMaker Studio، راجع أمازون ساجميكر ستوديو.

في وحدة الإدارة في AWS لـ SageMaker Studio، انتقل إلى SageMaker JumpStart ضمن حلول آلية ومبنية مسبقًا. يحتوي Jumpstart على نماذج ودفاتر ملاحظات وحلول تم إنشاؤها مسبقًا.

في الصفحة المقصودة لـ SageMaker JumpStart، يمكنك العثور على نموذج Gemma من خلال البحث عن Gemma.

يمكنك بعد ذلك الاختيار من بين مجموعة متنوعة من نماذج Gemma المتنوعة، بما في ذلك Gemma 2B، وGemma 7B، وGemma 2B instruct، وGemma 7B instruct.

اختر بطاقة النموذج لعرض تفاصيل حول النموذج مثل الترخيص والبيانات المستخدمة للتدريب وكيفية استخدام النموذج. سوف تجد أيضا أ نشر الزر، الذي ينقلك إلى الصفحة المقصودة حيث يمكنك اختبار الاستدلال باستخدام مثال للحمولة.

انشر Gemma باستخدام SageMaker Python SDK

يمكنك العثور على الكود الذي يوضح نشر Gemma على JumpStart ومثال لكيفية استخدام النموذج المنشور في هذا دفتر جيثب.

ابدأ بتحديد معرف نموذج SageMaker Model Hub وإصدار النموذج لاستخدامه عند نشر Gemma.

model_id, model_version = "huggingface-llm-gemma-7b-instruct", "*"

اختر معرف النموذج من الجدول التالي، والذي يعرض تفاصيل خيارات التكوين الافتراضية لنشر JumpStart. نظرًا لحجم المفردات الكبير البالغ 256 ألف رمز، لا يمكن احتواء Gemma 7B إلا على وحدة معالجة رسومات A10G واحدة عند دعم طول سياق يصل إلى ألف. لهذا السبب، يستخدم JumpStart مثيلًا افتراضيًا أكبر لـ Gemma 1B.

معرف النموذج مثيل الاستدلال الافتراضي درجة موازية للتوتر طول السياق المدعوم
Huggingface-llm-gemma-2b ml.g5.xlarge 1 8k
Huggingface-llm-gemma-2b-instruct ml.g5.xlarge 1 8k
Huggingface-llm-gemma-7b ml.g5.12xlarge 4 8k
Huggingface-llm-gemma-7b-instruct ml.g5.12xlarge 4 8k

يمكنك الآن نشر النموذج باستخدام SageMaker JumpStart. يستخدم التعليمة البرمجية التالية المثيل الافتراضي ml.g5.12xlarge بالنسبة لنقطة نهاية الاستدلال، يمكنك نشر النموذج على أنواع المثيلات الأخرى عن طريق التمرير instance_type في ال JumpStartModel فصل. قد يستغرق النشر من 5 إلى 10 دقائق.

from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(model_id=model_id, model_version=model_version)
predictor= model.deploy(accept_eula=False)  # manually accept EULA here!

للنشر الناجح، يجب عليك تغيير ملف accept_eula الوسيطة في طريقة نشر النموذج True. يتم نشر هذا النموذج باستخدام حاوية التعلم العميق لاستنتاج النص (TGI).

استدعاء نقطة النهاية

يمكنك استرداد أمثلة الحمولات برمجيًا من ملف JumpStartModel هدف. سيساعدك هذا على البدء من خلال مراقبة تعليمات التعليمات المنسقة مسبقًا والتي يمكن لـ Gemma استيعابها.

example_payloads = model.retrieve_all_examples()

for payload in example_payloads:
    response = predictor.predict(payload.body)
    print("Input:n", payload.body[payload.prompt_key])
    print("Output:n", response[0]["generated_text"].strip())
    print("n===============n")

قبل أن ننظر إلى مطالبات محددة، دعونا نفكر في قالب الدردشة لنماذج Gemma Instruct.

<bos><start_of_turn>usern[USER_PROMPT]<end_of_turn>n<start_of_turn>model

هنا، تضع مطالبتك في [USER_PROMPT] موقع. لا يوجد دعم لتعليمات النظام؛ بدلاً من ذلك، يمكنك إضافة التعليمات المطلوبة إلى موجه المستخدم. بالإضافة إلى ذلك، إذا كانت لديك محادثة متعددة الأدوار، فيمكن أن يتناوب موجه النموذج بين المستخدم والمساعد حسب الحاجة.

الآن فكر في بعض أمثلة التعليمات المطالبات. هنا تطلب من جيما أن تكتب برنامج Hello World.

payload = {
    "inputs": "<bos><start_of_turn>usernWrite a hello world module in Python<end_of_turn>n<start_of_turn>model",
    "parameters": {'max_new_tokens': 256},
}
predictor.predict(payload)

وفيما يلي الإخراج المتوقع:

```python
# This is a Python module called hello.py

def hello():
  """Prints a hello message."""
  print("Hello, world!")

if __name__ == "__main__":
  hello()
```

**Usage:**

To use the hello.py module, you can import it and call the hello function like this:

```python
import hello

hello.hello()
```

**Output:**

```
Hello, world!
```

**Explanation:**

* The `hello.py` module defines a function called `hello()`.
* The `if __name__ == "__main__"` block checks if the script is being run directly or imported. If it is run directly, the `hello()` function is called.
* The `print("Hello, world!")` statement prints the hello message to the console.

**Note:**

* You can save the code above in a file named `hello.py` in your current directory.
* To run the script, you can use the following command:
```
python hello.py
```
* The output will be printed in the console:
```
Hello, world!
```

بعد ذلك، استدعي جيما للقيام بالمهمة الإبداعية المتمثلة في كتابة قصيدة.

payload = {
    "inputs": "<bos><start_of_turn>usernWrite me a poem about Machine Learning.<end_of_turn>n<start_of_turn>model",
    "parameters": {'max_new_tokens': 256},
}
predictor.predict(payload)

وفيما يلي الإخراج:

**Machine Learning**

In the realm of data, a tale unfolds,
Where algorithms dance and stories are told.
With every click, a model takes flight,
Unveiling patterns, hidden in the night.

Data whispers secrets, a treasure to find,
Machine learning listens, with a curious mind.
It sifts through terabytes, with lightning speed,
Uncovering insights, a hidden creed.

From images to text, it learns to see,
To understand the complexities of reality.
It paints a canvas, with insights deep,
Unveiling patterns, secrets to keep.

In the field of medicine, it takes a stand,
Diagnosing diseases, guiding a hand.
It analyzes data, with unmatched grace,
Bringing hope to those in a troubled place.

But with great power comes great responsibility,
As algorithms can bias, with malicious intent.
It's a journey of learning, a constant fight,
To ensure fairness, day and night.

So let us harness the power of this tool,
To create a future, where insights bloom.
With wisdom and caution, we must guide,
The path of machine learning, side by side.

هذا يبدو جيدا جدا!

الآن، دعونا نلقي نظرة على قياس أداء زمن الوصول والإنتاجية للنموذج الذي يتم تقديمه مع تكوين نشر JumpStart الافتراضي. نعرض هنا كيف قد يختلف أداء النموذج بالنسبة لعبء عمل نقطة النهاية النموذجي لديك. في الجداول التالية، يمكنك ملاحظة أن الاستعلامات صغيرة الحجم (256 كلمة إدخال و256 رمزًا مميزًا للإخراج) تكون فعالة جدًا في ظل عدد كبير من المستخدمين المتزامنين، حيث تصل إنتاجية الرمز المميز إلى ما بين ألف إلى ألفي رمز مميز في الثانية. ومع ذلك، مع اقتراب عدد الكلمات المدخلة من الحد الأقصى لطول السياق المدعوم لـ Gemma وهو ثمانية آلاف رمز مميز، فإن نقطة النهاية تشبع سعة التجميع الخاصة بها - عدد الطلبات المتزامنة المسموح بمعالجتها في وقت واحد - بسبب القيود المرتبطة بذاكرة المثيل.

لمزيد من المعلومات حول كيفية النظر في هذه المعلومات وضبط تكوينات النشر لحالة الاستخدام المحددة الخاصة بك، راجع قياس الأداء وتحسين نشر نقطة النهاية في Amazon SageMaker JumpStart.

. الإنتاجية (الرموز/الرموز)
المستخدمين المتزامنين 1 2 4 8 16 32 64 128
نموذج نوع الطلب إدخال الكلمات رموز الإخراج . . . . . . . .
جيما-2ب-إرشاد ml.g5.xlarge 256 256 73 137 262 486 829 1330 1849 1834
2048 256 69 126 227 373 537 704 764 -
7936 256 60 100 147 195 226 230 - -
جيما-7ب-إرشاد ml.g5.12xlarge 256 256 62 119 227 413 601 811 937 962
2048 256 56 100 172 245 267 273 - -
7936 256 44 67 77 77 78 - - -
. زمن الوصول P50 (ملي ثانية/الرمز المميز)
المستخدمين المتزامنين 1 2 4 8 16 32 64 128
نموذج نوع الطلب إدخال الكلمات رموز الإخراج . . . . . . . .
جيما-2ب-إرشاد ml.g5.xlarge 256 256 13 14 15 16 19 23 33 49
2048 256 14 15 17 20 28 43 79 -
7936 256 16 19 26 39 68 136 - -
جيما-7ب-إرشاد ml.g5.12xlarge 256 256 16 16 17 19 26 38 57 110
2048 256 17 19 23 32 52 119 - -
7936 256 22 29 45 105 197 - - -

قم بضبط Gemma باستخدام SageMaker Python SDK

بعد ذلك، نعرض لك كيفية ضبط نموذج تعليمات Gemma 7B على مجموعة بيانات منسقة للمحادثة باستخدام كلورا تقنية. كما ذكرنا سابقًا، نظرًا لحجم المفردات الكبير البالغ 256 ألفًا وطول السياق البالغ 8 آلاف، يقدم JumpStart التكوينات الافتراضية التالية لضبط QLoRA.

معرف النموذج مثيل التدريب الافتراضي الحد الأقصى لطول تسلسل الإدخال حجم دفعة التدريب لكل جهاز خطوات تراكم التدرج
Huggingface-llm-gemma-2b ml.g5.2xlarge 1024 1 4
Huggingface-llm-gemma-2b-instruct ml.g5.2xlarge 1024 1 4
Huggingface-llm-gemma-7b ml.g5.12xlarge 2048 1 4
Huggingface-llm-gemma-7b-instruct ml.g5.12xlarge 2048 1 4

لنقم بتحميل مجموعة البيانات ومعالجتها بتنسيق محادثة. مجموعة البيانات النموذجية لهذا العرض التوضيحي هي أفضل 1 سلاسل محادثات في OpenAssistant.

from datasets import load_dataset

# Load the dataset
dataset = load_dataset("OpenAssistant/oasst_top1_2023-08-25")

يجب صياغة بيانات التدريب في خطوط JSON (.jsonl) حيث كل سطر عبارة عن قاموس يمثل مجموعة من المحادثات. يظهر أدناه مثال واحد ضمن ملف خطوط JSON. للحصول على تفاصيل حول كيفية معالجة مجموعة البيانات، راجع دفتر الملاحظات في GitHub جيثب:.

{'dialog': [
  {'content': 'what is the height of the empire state building',
   'role': 'user'},
  {'content': '381 meters, or 1,250 feet, is the height of the Empire State Building. If you also account for the antenna, it brings up the total height to 443 meters, or 1,454 feet',
   'role': 'assistant'},
  {'content': 'Some people need to pilot an aircraft above it and need to know.nSo what is the answer in feet?',
   'role': 'user'},
  {'content': '1454 feet', 'role': 'assistant'}]
}
import os
import boto3
from sagemaker.session import Session
from sagemaker.jumpstart.estimator import JumpStartEstimator

model_id = "huggingface-llm-gemma-7b-instruct"

estimator = JumpStartEstimator(
    model_id=model_id, environment={"accept_eula": "false"} # manually accept EULA here!
)

# For the other hyperparameters, see the GitHub notebook attached in this blog.
estimator.set_hyperparameters(chat_dataset="True", peft_type="lora", max_input_length="2048", epoch="3")
estimator.fit({"training": <your_S3_bucket_hosting_the_train_data>})

في أساس البرامج النصية للتدريب، يستخدم JumpStart HuggingFace SFTtrainer مع كلورا و تنبيه فلاش. يتيح Flash Attention كفاءة التوسع، مما يؤدي إلى تدريب واستدلال أسرع. إلى جانب الضبط الدقيق القائم على الدردشة، يدعم JumpStart أيضًا الضبط الدقيق للتعليمات والتكيف مع المجال باستخدام QLoRA. لمزيد من التفاصيل، راجع دفتر الملاحظات في GitHub جيثب:.

بعد الضبط الدقيق، يمكنك نشر النموذج الذي تم ضبطه بدقة إلى نقطة نهاية SageMaker.

fine_tuned_predictor= estimator.deploy()

يمكنك اختيار نشر النموذج المضبوط بدقة على بيانات المحادثة في نقطة نهاية SageMaker باستخدام ميزة واجهة برمجة تطبيقات رسائل HuggingFace كنهج بديل. تتمثل فائدة استخدام ميزة واجهة برمجة التطبيقات للرسائل في أنها تسمح للمستخدمين بتمرير أمثلة الاستعلام بتنسيق أولي كما هو موضح في الجدول التالي وسيقوم chat_template داخل نقطة النهاية بتحويل أمثلة الاستعلام إلى التنسيق المناسب قبل إرسالها إلى النموذج. للحصول على التفاصيل، راجع قسم النشر بعد الضبط الدقيق في مفكرة.

بعد نشر النموذج المضبوط بدقة في نقطة النهاية، يمكنك مقارنة استجابات المخرجات من نماذج Gemma المدربة مسبقًا والمضبوطة بدقة. يتم جمع الأمثلة من بيانات الاختبار، وهي مجموعة معلقة من بيانات التدريب. معلمات الاستدلال هي max_tokens كما 512، top_p كما 0.9، temperature 0.4 و top_k كـ 50.

كما ترون مع نتائج الضبط الدقيق، فإن إجابات الوكيل أكثر دقة.

لمزيد من تقييم نماذجك المضبوطة، يمكنك الاستكشاف توضيح تقييم FM مع Amazon SageMaker لمعرفة كيفية أداء النموذج المضبوط جيدًا مقارنةً بالنموذج الأساسي.

المدخلات الحقيقة الأرضية رد من قاعدة نموذج الاستجابة من النموذج الدقيق
1

المستخدم: أريد العمل على مفرداتي، هل يمكنك أن تعطيني بعض الطرق البسيطة التي يمكنني من خلالها العثور على كلمات جديدة لاستخدامها لزيادة تنوع جملك؟

المساعد: بالتأكيد! يعد تحسين مفرداتك عملية مستمرة، ولكن إليك بعض الطرق البسيطة للعثور على كلمات جديدة وزيادة تنوع جملك:

1. اقرأ على نطاق واسع: قراءة الكتب والمقالات والمدونات من مختلف الأنواع والموضوعات تعرضك لكلمات وعبارات جديدة. قم بتدوين أي كلمات غير مألوفة تصادفها وابحث عن معانيها.

2. استخدم المعجم: عندما تكتب أو تقرأ، استخدم المعجم للعثور على مرادفات للكلمات شائعة الاستخدام. وهذا لا يساعدك فقط على تعلم كلمات جديدة، بل يعزز أيضًا فهمك للاختلافات الدقيقة في المعنى.

3. تقويمات أو تطبيقات كلمة في اليوم: اشترك في رسالة بريد إلكتروني تحتوي على كلمة في اليوم أو قم بتنزيل تطبيق لبناء المفردات. تقدم لك هذه الأدوات كلمة جديدة كل يوم، بالإضافة إلى معناها ونطقها وأمثلة استخدامها.

4. انضم إلى نادي الكتاب أو مجموعة المناقشة: إن المشاركة في المحادثات والمناقشات حول الكتب أو المقالات أو أي موضوع آخر يعرضك لوجهات نظر مختلفة ومفردات جديدة. استمع بانتباه للآخرين وحاول استخدام كلمات جديدة في السياق.

5. العب ألعاب الكلمات: ألعاب مثل Scrabble وBoggle والألغاز المتقاطعة تتحدى مهاراتك في المفردات وتساعدك على تعلم كلمات جديدة بطريقة ممتعة.

6. شاهد الأفلام أو البرامج التلفزيونية أو الأفلام الوثائقية: غالبًا ما تستخدم الوسائط المرئية لغة ولغة عامية ومصطلحات متنوعة. يمكن أن تساعدك مشاهدة الأفلام أو البرامج التلفزيونية أو الأفلام الوثائقية المترجمة على فهم الكلمات الجديدة وتذكرها بشكل أفضل.

7. تدرب على الكتابة: إن كتابة القصص أو المقالات أو إدخالات دفتر اليومية بانتظام تشجعك على استخدام كلمات وعبارات جديدة. قم بتجربة أنماط وأنواع كتابة مختلفة لتوسيع مفرداتك.

8. تعلم أصل الكلمة الجديدة: إن فهم أصل الكلمة وتاريخها يمكن أن يسهل تذكرها واستخدامها بشكل صحيح. إن البحث في أصل الكلمة يعرضك أيضًا للكلمات والمفاهيم ذات الصلة.

9. استخدم البطاقات التعليمية أو برامج التكرار المتباعد: أنشئ بطاقات تعليمية تحتوي على كلمات جديدة ومعانيها وأمثلة للجمل. قم بمراجعتها بانتظام أو استخدم برنامج التكرار المتباعد مثل Anki لتحسين تعلمك.

10. حدد أهدافًا شخصية: حدد أهدافًا قابلة للتحقيق، مثل تعلم خمس كلمات جديدة أسبوعيًا. تابع تقدمك وكافئ نفسك على تحقيق أهدافك.

ومن خلال دمج هذه الاستراتيجيات باستمرار في روتينك اليومي، ستتمكن تدريجيًا من بناء مفردات متنوعة وقوية.

المستخدم: حسنًا، أنا حقًا أحب فكرة القراءة. هل يمكن أن توصيني بكتاب خيال علمي رائع يمكنني قراءته؟

المساعد: بالتأكيد! فيما يلي بعض التوصيات لأفلام الإثارة والخيال العلمي التي قد تستمتع بها:

1. "مشكلة الأجسام الثلاثة" بقلم ليو سيشين - تستكشف هذه الرواية الحائزة على جوائز الاتصال الأول بين الإنسانية وحضارة غريبة، والتداعيات السياسية والشخصية الناتجة عن ذلك. إنها قراءة جذابة ومثيرة للتفكير وتتعمق في أسئلة عميقة حول طبيعة الوجود والكون.

2. "الإبادة" بقلم جيف فاندرمير - تتبع هذه الرواية مجموعة من العلماء أثناء مغامرتهم في منطقة غامضة تُعرف باسم "المنطقة X"، حيث يواجهون ظواهر غريبة ومقلقة. وبينما يتعمقون في المنطقة، يبدأون في الكشف عن أسرار مظلمة حول طبيعة الواقع والعالم من حولهم.

3. "المادة المظلمة" بقلم بليك كراوتش - تتبع هذه الرواية عالم فيزياء لامع يدعى جيسون ديسن، الذي تم اختطافه ونقله إلى عالم موازي. وبينما يحاول العثور على طريق العودة إلى واقعه، يجب عليه أن يواجه خياراته وعواقب أفعاله.

4. "سلالة المرأة المسلسلة" بقلم مايكل كرايتون - تتبع هذه الرواية الكلاسيكية فريقًا من العلماء أثناء محاولتهم احتواء ودراسة ميكروب قاتل من خارج كوكب الأرض هبط على الأرض. وبينما يتسابقون مع الزمن لإيجاد طريقة لتحييد الميكروب، يجب عليهم أيضًا مواجهة المؤامرات السياسية والصراعات الشخصية.

5. "Ready Player One" لإرنست كلاين - تدور أحداث هذه الرواية في مستقبل بائس حيث يقضي غالبية السكان وقتهم في عالم الواقع الافتراضي المعروف باسم OASIS. عندما يموت مبتكر الواحة ويترك وراءه تحديًا للعثور على بيضة عيد الفصح المخفية، ينطلق بطل الرواية الشاب في مهمة مثيرة ستغير حياته إلى الأبد.

آمل أن تثير إحدى هذه التوصيات اهتمامك!

المساعد: لا يحتوي النص على معلومات حول تفضيلاتك أو اهتماماتك في القراءة، وبالتالي لا يمكنني تقديم توصية بالكتاب.

المساعد: بالتأكيد، إليك بعض توصيات أفلام الخيال العلمي المثيرة التي قد تستمتع بها:

- "الكثبان" بقلم فرانك هربرت: تدور أحداث رواية الخيال العلمي الملحمية هذه على كوكب أراكيس الصحراوي، حيث يجب على أمير شاب يدعى بول أتريدس أن يواجه تحديات بيئة معادية ومشهد سياسي غادر.

- "The Martian" للمخرج آندي وير: فيلم الخيال العلمي المثير هذا يتتبع قصة مارك واتني، رائد الفضاء الذي تقطعت به السبل على المريخ بعد عاصفة ترابية، حيث يستخدم براعته وسعة الحيلة للبقاء على قيد الحياة وفي النهاية يعود إلى الأرض.

- "آلة الزمن" للكاتب إتش جي ويلز: تأخذ رواية الخيال العلمي الكلاسيكية هذه مقاربة فلسفية لمفهوم السفر عبر الزمن، حيث تستكشف عواقب تغيير الماضي والمستقبل.

- "The Blade Runner" بقلم فيليب ك. ديك: رواية خيال علمي ذات طابع نوير جديد، تدور أحداثها في مدينة لوس أنجلوس المستقبلية، وتستكشف التقاطع بين الذكاء البشري والذكاء الاصطناعي، وتأثيره على المجتمع وطبيعة الواقع.

- "الأندرويد" لإسحاق أسيموف: تستكشف رواية الخيال العلمي هذه مفهوم الذكاء الاصطناعي وعواقبه المحتملة، خاصة عندما يطور البشر أجهزة أندرويد متقدمة تتحدى القيم والمعتقدات الإنسانية التقليدية.

هذه مجرد اقتراحات قليلة، وفي النهاية سيعتمد أفضل كتاب بالنسبة لك على تفضيلاتك الشخصية ونوع الخبرة التي تبحث عنها في أحد أفلام الخيال العلمي المثيرة. ولكنني آمل أن تمنحك هذه التوصيات نقطة انطلاق جيدة لاستكشاف هذا النوع.

يرجى إعلامي إذا كانت لديك أي أسئلة أخرى أو إذا كان هناك أي شيء يمكنني مساعدتك به.
المستخدم
شكرا لك على التوصية بهذه الكتب لي! أنا متحمس للغوص في واحد منهم قريبا!
نموذج
على الرحب والسعة! أنا سعيد بخدمتك.

2

المستخدم: قم بكتابة برنامج Hello World في VB.NET

مساعد: تفضل:

""vbnet
الوحدة العامة HelloWorld
عام فرعي رئيسي ()
System.Console.WriteLine("مرحبًا بالعالم!")
نهاية الفرعية
وحدة النهاية
"`

المستخدم: اجعله يأخذ المدخلات من $ ثم قل "Hello, $" بدلاً من "Hello, World!"

المساعد: الوحدة العامة HelloWorld
عام فرعي رئيسي ()
System.Console.WriteLine("ما اسمك؟")
الاسم الخافت كسلسلة = System.Console.ReadLine()
System.Console.WriteLine("مرحبًا"، & الاسم & "!")
نهاية الفرعية
وحدة النهاية
المساعد: ""vbnet
الوحدة العامة HelloWorld
عام فرعي رئيسي ()
اسم خافت كسلسلة = Console.ReadLine()
Console.WriteLine("مرحبًا" والاسم)
نهاية الفرعية
وحدة النهاية

المساعد: بالتأكيد! هنا مثال:

""vbnet
الوحدة العامة HelloWorld
عام فرعي رئيسي ()
اسم المستخدم الخافت كسلسلة = System.Console.ReadLine()
System.Console.WriteLine("مرحبًا،" واسم المستخدم و"!")
نهاية الفرعية
وحدة النهاية
"`

3

المستخدم: أعطني قائمة بالعناصر التي يجب القيام بها عند بدء مشروع لتدريب نموذج لغوي كبير يمكنه فهم الأسئلة البشرية والرد عليها

المساعد: الخطوات التالية هي قائمة مختصرة من الخطوات التي يجب اتخاذها عند بدء مشروع لتدريب نموذج لغوي كبير قادر على الفهم والرد على الاستفسارات البشرية:

1. تحديد نطاق المشروع وأهدافه والجمهور المستهدف.
2. جمع ومعالجة مجموعة بيانات نصية شاملة/متنوعة.
3. حدد بنية النموذج المناسبة، واضبط المعلمات الفائقة للتأكد من الدقة/السرعة.
4. تقسيم مجموعة البيانات إلى مجموعات فرعية للتدريب والتحقق من الصحة والاختبار وتنفيذ زيادة البيانات.
5. تدريب النموذج ومراقبة التقدم في مجموعة التحقق من الصحة وضبطه حسب الحاجة.
6. تقييم النموذج في مجموعة الاختبار، ومقارنته بالمعايير، وتحليل الأخطاء والتحيزات.
7. الضبط الدقيق لمهام أو مجالات محددة من خلال نقل التعلم أو الضبط الدقيق.
8. إنشاء واجهة لإدخال المستخدم واستجابة النموذج.
9. الاختبار في بيئة خاضعة للرقابة، وجمع الملاحظات من أجل التحسين.
10. مراقبة الأداء وتحسينه بشكل مستمر من خلال إعادة التدريب والضبط.

من المفترض أن يمنحك هذا فكرة أساسية عن الخطوات المطلوبة. هل يجب أن أخوض في مزيد من التفاصيل حول إحدى النقاط؟

المستخدم: تحتاج هذه المهام إلى مزيد من التقسيم، هل يمكنك تقديم قائمة مهام محدثة مع تفاصيل أكثر تفصيلاً للمهام المقبلة

المساعد: فيما يلي تفاصيل أكثر تفصيلاً لكل خطوة:

1. تحديد نطاق المشروع وأهدافه: من المهم تحديد أهداف المشروع بوضوح والجمهور المستهدف. سيساعدك هذا على اتخاذ قرارات بشأن نوع البيانات التي سيتم جمعها وبنية النموذج المناسبة.

2. جمع البيانات ومعالجتها مسبقًا: تعد هذه خطوة مهمة حيث أن جودة البيانات وتنوعها سيؤثران بشكل مباشر على أداء النموذج. قد تتضمن المعالجة المسبقة تنظيف البيانات، وتمييز النص، وتحويل الكلمات إلى تمثيلات رقمية.

3. تحديد بنية النموذج: هناك العديد من أنواع النماذج المختلفة للاختيار من بينها، بما في ذلك الشبكات العصبية المتكررة (RNNs)، ونماذج المحولات، والشبكات العصبية التلافيفية (CNNs). ويعتمد الاختيار على المتطلبات المحددة للمشروع وكمية البيانات المتاحة.

4. تقسيم مجموعة البيانات وتنفيذ زيادة البيانات: يعد تقسيم البيانات إلى مجموعات فرعية للتدريب والتحقق من الصحة والاختبار أمرًا مهمًا لمراقبة أداء النموذج أثناء التدريب. يمكن استخدام زيادة البيانات لزيادة حجم مجموعة البيانات بشكل مصطنع وتحسين قوة النموذج.

5. تدريب النموذج ومراقبة التقدم: تتضمن هذه الخطوة تدريب النموذج على بيانات التدريب، باستخدام مجموعة التحقق من الصحة لمراقبة التقدم وضبط المعلمات الفائقة حسب الحاجة. قد يكون من الضروري تكرار هذه العملية عدة مرات حتى يعمل النموذج بشكل جيد في مجموعة التحقق من الصحة.

6. تقييم النموذج على مجموعة اختبار: بمجرد تدريب النموذج، من المهم تقييم أدائه على مجموعة اختبار منفصلة للحصول على فكرة عن قدرته على التعميم. ويمكن القيام بذلك عن طريق مقارنة تنبؤات النموذج بالنتائج الفعلية وتحليل الأخطاء.

7. الضبط الدقيق لمهام أو مجالات محددة: تتضمن هذه الخطوة تدريبًا إضافيًا للنموذج على البيانات الخاصة بالمهمة لتحسين أدائه لمجال معين. يمكن القيام بذلك من خلال نقل التعلم، حيث يتم ضبط النموذج المُدرب مسبقًا بشكل دقيق على البيانات الجديدة، أو من خلال الضبط الدقيق، حيث يتم تدريب النموذج من الصفر على البيانات الجديدة.

8. إنشاء واجهة لإدخال المستخدم: يتضمن ذلك تصميم واجهة تسمح للمستخدمين بإدخال الأسئلة أو الطلبات وتلقي الردود من النموذج.

9. الاختبار في بيئة خاضعة للرقابة: قبل نشر النموذج في بيئة واقعية، من المهم اختباره في بيئة خاضعة للرقابة وجمع التعليقات من المستخدمين. سيساعد ذلك في تحديد أي أخطاء أو تحيزات في النموذج وتوفير فرص للتحسين.

10. مراقبة الأداء وتحسينه باستمرار: أخيرًا، من المهم مراقبة أداء النموذج بشكل مستمر وإجراء التحديثات والتحسينات حسب الحاجة. قد يتضمن ذلك إعادة تدريب النموذج على بيانات جديدة، أو ضبط المعلمات الفائقة، أو تحديث البنية.

المساعد: ## قائمة المهام لتدريب نموذج لغوي كبير للإجابة على الأسئلة

**1. نطاق المشروع وأهدافه:**

* تحديد أهداف المشروع والوظائف المطلوبة.
* تحديد الجمهور المستهدف واحتياجاتهم الخاصة.
* تحديد المستوى المطلوب من الدقة وجودة الاستجابة.

**2. الحصول على البيانات والمعالجة المسبقة:**

* تحديد مصادر بيانات التدريب وجمع مجموعة بيانات نصية متنوعة.
* تنظيف البيانات النصية ومعالجتها مسبقًا لضمان الاتساق والجودة.
* تنفيذ تقنيات زيادة البيانات لزيادة حجم بيانات التدريب.

**3. اختيار النموذج وتكوينه:**

* حدد بنية النموذج المناسبة بناءً على مدى تعقيد المهمة والأداء المطلوب.
* ضبط المعلمات الفائقة لتحسين أداء النموذج.
* اختيار الإطار والأدوات الأنسب لتنفيذ النموذج.

**4. التدريب والتقييم:**

* تقسيم بيانات التدريب إلى مجموعات فرعية للتدريب والتحقق من الصحة والاختبار.
* تدريب النموذج باستخدام الإطار المحدد والمعلمات الفائقة.
* مراقبة تقدم التدريب على مجموعة التحقق من الصحة وضبط معلمات النموذج حسب الحاجة.
* تقييم أداء النموذج في مجموعة الاختبار مقابل المعايير والأهداف المرجوة.

**5. الضبط الدقيق وتطوير الواجهة:**

* ضبط النموذج لمهام أو مجالات محددة من خلال نقل التعلم.
* تطوير واجهة لإدخال المستخدم والاستجابة للنموذج، مع الأخذ في الاعتبار سهولة الاستخدام وإمكانية الوصول.
* دمج النموذج مع الواجهة وضمان التفاعل السلس.

**6. الاختبار والتحسين:**

* اختبار النموذج في بيئة خاضعة للرقابة مع سيناريوهات الإدخال المختلفة.
* جمع ردود الفعل من المستخدمين والخبراء لتحديد مجالات التحسين.
* مراقبة أداء النموذج وتحسينه باستمرار من خلال إعادة التدريب والضبط الدقيق.

**اعتبارات إضافية:**

* تحديد الجدول الزمني والميزانية للمشروع.
* تحديد التحديات المحتملة ووضع خطط الطوارئ.
* توثيق العملية والنتائج للرجوع إليها والتعاون في المستقبل.

**ملاحظة:** هذه القائمة ليست شاملة وقد تحتاج إلى تعديلها بناءً على متطلبات المشروع المحددة.

المساعد: بالتأكيد، فيما يلي تفصيل أكثر تفصيلاً للمهام التي ينطوي عليها تدريب نموذج لغوي كبير لفهم الأسئلة البشرية والرد عليها:

**1. تحديد نطاق المشروع وأهدافه**
– تحديد أهداف وغايات المشروع بما في ذلك الجمهور المستهدف والوظيفة المطلوبة للنموذج.
– تحديد المهام المحددة التي سيحتاج النموذج إلى تنفيذها.

**2. جمع ومعالجة مجموعة بيانات نصية شاملة/متنوعة**
– تحديد مصادر البيانات النصية ذات الصلة بالجمهور المستهدف والمهام.
- تنظيف البيانات النصية ومعالجتها مسبقًا لضمان الاتساق والجودة.
– إنشاء مجموعة بيانات متوازنة تعكس تنوع اللغة والفكر البشري.

**3. حدد بنية النموذج المناسبة، واضبط المعلمات الفائقة للدقة/السرعة**
- اختر بنية نموذجية مناسبة تمامًا للمهام والبيانات.
- ضبط المعلمات الفائقة للنموذج لتحسين الأداء والسرعة.
– مراقبة أداء النموذج على بيانات التحقق للتأكد من قابليتها للتعميم.

**4. قسّم مجموعة البيانات إلى تدريب، والتحقق من الصحة، واختبار المجموعات الفرعية، وتنفيذ زيادة البيانات**
– تقسيم مجموعة البيانات إلى مجموعات فرعية للتدريب والتحقق من الصحة والاختبار.
– تنفيذ تقنيات زيادة البيانات لزيادة تنوع وحجم بيانات التدريب.

**5. نموذج التدريب، ومراقبة التقدم في مجموعة التحقق من الصحة، وضبطه حسب الحاجة**
– تدريب النموذج باستخدام بيانات التدريب.
- مراقبة تقدم النموذج فيما يتعلق ببيانات التحقق من الصحة لتحديد مجالات التحسين.
- اضبط المعلمات الفائقة أو البنية الخاصة بالنموذج حسب الحاجة لتحسين الأداء.

**6. تقييم النموذج في مجموعة الاختبار، والمقارنة بالمقاييس المرجعية، وتحليل الأخطاء والتحيزات**
– تقييم أداء النموذج على بيانات الاختبار.
– مقارنة أداء النموذج بالمعايير ومعايير الصناعة.
– تحليل الأخطاء والتحيزات لتحديد مجالات التحسين.

**7. الضبط الدقيق لمهام أو مجالات محددة من خلال نقل التعلم أو الضبط الدقيق**
– ضبط النموذج لمهام أو مجالات محددة عن طريق نقل المعرفة من نموذج مدرب مسبقًا.
– استخدم نقل التعلم للاستفادة من المعرفة الحالية وتحسين أداء النموذج.

** 8. إنشاء واجهة لإدخال المستخدم والاستجابة النموذجية**
– إنشاء واجهة تسمح للمستخدمين بإدخال الأسئلة وتلقي الإجابات من النموذج.
– تصميم الواجهة لتكون سهلة الاستخدام وبديهية.

**9. الاختبار في بيئة خاضعة للرقابة، وجمع الملاحظات من أجل التحسين**
– اختبار النموذج في بيئة خاضعة للرقابة للتأكد من أنه يعمل كما هو متوقع.
– جمع ردود الفعل من المستخدمين لتحديد مجالات التحسين.

**10. مراقبة الأداء وتحسينه باستمرار من خلال إعادة التدريب والضبط الدقيق**
– مراقبة أداء النموذج بشكل مستمر.
– إعادة تدريب النموذج وضبطه حسب الحاجة لتحسين أدائه.

هذه هي الخطوات المتبعة في تدريب نموذج لغوي كبير لفهم الأسئلة البشرية والرد عليها. واسمحوا لي أن أعرف إذا كان لديك سؤال.

تنظيف

بعد اختبار نقاط النهاية، احذف نقاط نهاية استنتاج SageMaker والنموذج لتجنب تكبد الرسوم.

وفي الختام

في هذا المنشور، أوضحنا لك كيفية البدء باستخدام Gemma في SageMaker Studio ونشر النموذج للاستدلال. لقد أظهرنا لك أيضًا كيف يمكنك ضبط نماذج Gemma على SageMaker Jumpstart.

نظرًا لأن النماذج الأساسية تم تدريبها مسبقًا، فيمكنها المساعدة في تقليل تكاليف التدريب والبنية التحتية وتمكين التخصيص لحالة الاستخدام الخاصة بك. تفضل بزيارة SageMaker JumpStart في SageMaker Studio الآن للبدء.

هذا الدليل هو لأغراض إعلامية فقط. لا يزال يتعين عليك إجراء التقييم المستقل الخاص بك ، واتخاذ التدابير لضمان امتثالك لممارسات ومعايير مراقبة الجودة الخاصة بك ، والقواعد والقوانين واللوائح والتراخيص وشروط الاستخدام المحلية التي تنطبق عليك وعلى المحتوى الخاص بك و نموذج الجهة الخارجية المشار إليه في هذا الدليل. لا تملك AWS أي سيطرة أو سلطة على نموذج الجهة الخارجية المشار إليه في هذا الدليل ، ولا تقدم أي تعهدات أو ضمانات بأن نموذج الجهة الخارجية آمن أو خالي من الفيروسات أو جاهز للعمل أو متوافق مع بيئة الإنتاج والمعايير الخاصة بك. لا تقدم AWS أي إقرارات أو ضمانات أو ضمانات بأن أي معلومات واردة في هذا التوجيه ستؤدي إلى نتيجة أو نتيجة معينة.


عن المؤلفين

دكتور كايل أولريش هو عالم تطبيقي مع خوارزميات Amazon SageMaker المضمنة فريق. تشمل اهتماماته البحثية خوارزميات التعلم الآلي القابلة للتطوير ، والرؤية الحاسوبية ، والسلاسل الزمنية ، والمعاملات البايزية غير البارامترية ، والعمليات الغاوسية. حصل على درجة الدكتوراه من جامعة ديوك وقد نشر أبحاثًا في NeurIPS و Cell و Neuron.

الدكتور شين هوانغ هو عالم تطبيقي كبير في Amazon SageMaker JumpStart وخوارزميات Amazon SageMaker المدمجة. يركز على تطوير خوارزميات التعلم الآلي القابلة للتطوير. تتركز اهتماماته البحثية في مجال معالجة اللغة الطبيعية ، والتعلم العميق القابل للتفسير على البيانات المجدولة ، والتحليل القوي لتجميع الزمكان غير المعياري. وقد نشر العديد من الأوراق في مؤتمرات ACL و ICDM و KDD والجمعية الملكية للإحصاء: السلسلة أ.

راتشنا شادا هو مهندس الحلول الرئيسي AI/ML في الحسابات الإستراتيجية في AWS. نجاح متفائلة وتؤمن بأن الاستخدام الأخلاقي والمسؤول للذكاء الاصطناعي يمكن أن يحسن المجتمع في المستقبل ويحقق الرخاء الاقتصادي والاجتماعي. في أوقات فراغها، تحب نجاح قضاء الوقت مع عائلتها والمشي لمسافات طويلة والاستماع إلى الموسيقى.

ايفان كرافيتز هو مهندس برمجيات في Amazon Web Services ، ويعمل على SageMaker JumpStart. إنه يستمتع بالطهي والركض في مدينة نيويورك.

د. أشيش خيتان هو عالم تطبيقي أقدم مع خوارزميات Amazon SageMaker المضمنة ويساعد في تطوير خوارزميات التعلم الآلي. حصل على الدكتوراه من جامعة إلينوي في أوربانا شامبين. وهو باحث نشط في التعلم الآلي والاستدلال الإحصائي ، وقد نشر العديد من الأوراق البحثية في مؤتمرات NeurIPS و ICML و ICLR و JMLR و ACL و EMNLP.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة