ذكاء البيانات التوليدية

ماذا لو تم تدريب ChatGPT على عقود من الأخبار والبيانات المالية تهدف BloombergGPT إلى أن تكون ذكاءً اصطناعيًا خاصًا بالمجال لأخبار الأعمال

التاريخ:

إذا كنت تنوي التنبؤ بأي شركة إخبارية ستكون الأولى بنموذجها الضخم للذكاء الاصطناعي ، لكان بلومبيرج رهانًا جيدًا. لكل نجاحها التوسع في الأخبار التي تواجه المستهلك على مدار العقد الماضي ، كانت بلومبرج في الأساس شركة بيانات ، يقودها اشتراكات 30,000،XNUMX دولار / سنة إلى محطاتها.
يوم الجمعة ، أعلنت الشركة أنها فعلت بنى شيئًا يسمى BloombergGPT. فكر في الأمر على أنه جهاز كمبيوتر يهدف إلى "معرفة" كل ما "تعرفه" الشركة بأكملها.
بلومبرج اليوم صدر ورقة بحثية يشرح بالتفصيل تطور BloombergGPT ™ ، وهو نموذج ذكاء اصطناعي توليدي واسع النطاق (AI) جديد. تم تدريب هذا النموذج اللغوي الكبير (LLM) بشكل خاص على مجموعة واسعة من البيانات المالية لدعم مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP) داخل الصناعة المالية.

أظهرت التطورات الحديثة في الذكاء الاصطناعي (AI) القائم على LLMs بالفعل تطبيقات جديدة ومثيرة للعديد من المجالات. ومع ذلك ، فإن التعقيد والمصطلحات الفريدة للمجال المالي تتطلب نموذجًا خاصًا بالمجال. يمثل BloombergGPT الخطوة الأولى في تطوير وتطبيق هذه التكنولوجيا الجديدة للصناعة المالية. سيساعد هذا النموذج Bloomberg في تحسين مهام البرمجة اللغوية العصبية المالية الحالية ، مثل تحليل المشاعر ، والتعرف على الكيانات المسماة ، وتصنيف الأخبار ، والإجابة على الأسئلة ، من بين أمور أخرى. علاوة على ذلك ، ستفتح BloombergGPT فرصًا جديدة لتنظيم الكميات الهائلة من البيانات المتاحة على Bloomberg Terminal لمساعدة عملاء الشركة بشكل أفضل ، مع توفير الإمكانات الكاملة للذكاء الاصطناعي في المجال المالي.

التفاصيل الفنية ، كما وعدت ، في هذه الورقة البحثية. إنه من بلومبيرج شيجي وو, أوزان إرصوي, ستيفن لو, فاديم دابرافولسكي, مارك دريدز, سيباستيان جيرمان, برابانجان كامبادور, ديفيد روزنبرغو جدعون مان.
ما هو حجم BloombergGPT؟ حسنًا ، تقول الشركة إنها تدربت على أكثر من مجموعة 700 مليار الرموز (أو أجزاء الكلمات). للسياق ، تم تدريب GPT-3 ، الذي تم إصداره في عام 2020 ، على حوالي 500 مليار. (رفضت شركة OpenAI الكشف عن أي رقم مكافئ لـ GPT-4 ، و تم إصداره الشهر الماضي، نقلا عن "المشهد التنافسي".)
ماذا يوجد في كل بيانات التدريب هذه؟ من بين 700 مليون رمز مميز ، تم أخذ 363 مليارًا من البيانات المالية الخاصة بلومبرج ، وهو نوع المعلومات التي تشغل محطاتها - "أكبر مجموعة بيانات خاصة بالمجال حتى الآن" تم إنشاؤها ، كما تقول. يأتي 345 مليار رمز آخر من "مجموعات بيانات للأغراض العامة" تم الحصول عليها من أماكن أخرى.

بدلاً من بناء LLM للأغراض العامة ، أو LLM صغير حصريًا على بيانات خاصة بالمجال ، فإننا نتبع نهجًا مختلطًا. تغطي النماذج العامة العديد من المجالات ، وهي قادرة على الأداء على مستوى عال عبر مجموعة متنوعة من المهام ، وتجنب الحاجة إلى التخصص أثناء وقت التدريب. ومع ذلك ، تظهر النتائج من النماذج الخاصة بالمجال الحالية أن النماذج العامة لا يمكن أن تحل محلها. في Bloomberg ، ندعم مجموعة كبيرة جدًا ومتنوعة من المهام ، يتم تقديمها جيدًا بواسطة نموذج عام ، ولكن الغالبية العظمى من تطبيقاتنا تقع ضمن المجال المالي ، ويتم تقديمها بشكل أفضل من خلال نموذج معين. لهذا السبب ، شرعنا في بناء نموذج يحقق أفضل النتائج في فئتها على المعايير المالية ، مع الحفاظ أيضًا على الأداء التنافسي على معايير LLM للأغراض العامة.

تتكون البيانات الخاصة بالشركة ، المسماة FinPile ، من "مجموعة من المستندات المالية الإنجليزية بما في ذلك الأخبار ، والإيداعات ، والبيانات الصحفية ، والمستندات المالية الممسوحة على الويب ، ووسائل التواصل الاجتماعي المستمدة من أرشيفات بلومبيرج." لذلك إذا كنت قد قرأت قصة بلومبيرج بيزنس ويك في السنوات القليلة الماضية ، فهي موجودة. وكذلك الحال بالنسبة لإيداعات هيئة الأوراق المالية والبورصات ، ونصوص تلفزيون بلومبرج ، وبيانات مجلس الاحتياطي الفيدرالي ، و "البيانات الأخرى ذات الصلة بالأسواق المالية". تم تدريبه أيضًا على غير- مصادر أخبار بلومبيرج:

تشمل فئة الأخبار جميع المصادر الإخبارية باستثناء المقالات الإخبارية التي كتبها صحفيو بلومبيرج. بشكل عام ، هناك المئات من مصادر الأخبار الإنجليزية في FinPile ... بشكل عام ، يأتي المحتوى في مجموعة البيانات هذه من مصادر الأخبار ذات السمعة الطيبة ذات الصلة بالمجتمع المالي وذلك للحفاظ على الوقائع وتقليل التحيز.

تتضمن البيانات غير الخاصة بالتمويل أ مجموعة ضخمة الشعرية المعروفة باسم كومة؛ يتضمن كل شيء بدءًا من التعليقات على YouTube وحتى Project Gutenberg وحتى ، نعم ، ذاكرة التخزين المؤقت لرسائل البريد الإلكتروني الخاصة بشركة إنرون التي هي ظهرت دائما in تدريب الذكاء الاصطناعى. (يحتوي أيضًا على نسخة كاملة من ويكيبيديا اعتبارًا من يوليو الماضي.)
لكن يكفي عن بيانات التدريب. ما الذي يمكن لـ BloombergGPT do؟ نظرًا لأنها تشترك في قاعدة تدريب مع LLMs أخرى ، يمكن لـ BloombergGPT القيام بأنواع الأشياء التي توقعناها من ChatGPT والنماذج المماثلة. ولكن يمكنها أيضًا أداء مهام مرتبطة ارتباطًا وثيقًا باحتياجات بلومبرج. يمكنه ترجمة طلبات اللغة الطبيعية ("Apple and IBM market cap and eps") إلى محطة Bloomberg Query Language التي يحبها المستخدمون / يكرهونها (get(cur_mkt_cap,is_eps) for([’AAPL US Equity’,’IBM US Equity’])). يمكن أن يقترح أيضًا عناوين رئيسية على غرار بلومبرج للقصص الإخبارية (آسف ، نسخ المحررين):

إدخال: تقلص سوق الإسكان في الولايات المتحدة من حيث القيمة بمقدار 2.3 تريليون دولار ، أو 4.9٪ ، في النصف الثاني من عام 2022 ، وفقًا لـ Redfin. هذا هو أكبر انخفاض من حيث النسبة المئوية منذ أزمة الإسكان عام 2008 ، عندما تراجعت القيم بنسبة 5.8٪ خلال نفس الفترة.
الناتج: أسعار المنازل تشهد أكبر انخفاض منذ 15 عامًا 

إدخالقالت جانيت يلين في مجموعة العشرين إن الاقتصاد العالمي في وضع أفضل اليوم مما توقعه كثيرون قبل شهور. في الداخل ، أشارت إلى مرونة الاقتصاد الأمريكي ، حيث تراجع التضخم الكلي وسوق العمل قوي. كما دعت صندوق النقد الدولي إلى التحرك بسرعة نحو برنامج ممول بالكامل لأوكرانيا.
الناتج: ترى يلين أن الاقتصاد العالمي أكثر مرونة مما كان متوقعًا

إدخال: تم رفع دعوى قضائية ضد Google من قبل الولايات المتحدة وثماني ولايات تسعى إلى تفكيك أعمالها في مجال تكنولوجيا الإعلانات بزعم احتكارها لسوق الإعلانات الرقمية. الدعوى القضائية هي أول تحد كبير لإدارة بايدن لعملاق التكنولوجيا وواحدة من المرات النادرة منذ عام 1982 التي سعت فيها وزارة العدل لتشكيل شركة كبرى.
الناتج: دعوى قضائية ضد Google بسبب الاحتكار في سوق الإعلانات عبر الإنترنت

كما يقولون ، من الأفضل ضبطها للإجابة على أسئلة محددة متعلقة بالعمل ، سواء كانت تحليل المشاعر ، أو التصنيف ، أو استخراج البيانات ، أو أي شيء آخر تمامًا. ("على سبيل المثال ، يؤدي أداءً جيدًا في تحديد الرئيس التنفيذي لشركة ما.")
تتضمن الورقة سلسلة من مقارنات الأداء مع GPT-3 و LLMs الأخرى وتجد أن BloombergGPT لها مهامها العامة - على الأقل عند مواجهة النماذج ذات الحجم المتشابه - وتتفوق في الأداء على العديد من النماذج الخاصة بالتمويل. (تشتمل بطارية الاختبار الداخلية على مصطلحات جاهزة للعبة الكرنفال مثل "طيور البطريق في الجدولو "Snarks" و "Web of Lies" و "Hyperbaton" اللعين.)

تظهر صورة واضحة عبر عشرات المهام في العديد من المعايير. من بين النماذج التي تحتوي على عشرات المليارات من المعلمات التي نقارن بها ، فإن أداء BloombergGPT هو الأفضل. علاوة على ذلك ، في بعض الحالات ، تكون تنافسية أو تتجاوز أداء النماذج الأكبر بكثير (مئات المليارات من المعلمات). بينما كان هدفنا من BloombergGPT هو أن نكون أفضل نموذج في فئته للمهام المالية ، وقمنا بتضمين بيانات التدريب للأغراض العامة لدعم التدريب الخاص بالمجال ، إلا أن النموذج لا يزال يتمتع بقدرات على بيانات الأغراض العامة التي تتجاوز النماذج المماثلة الحجم ، وفي بعض الحالات تطابق أو تتفوق على النماذج الأكبر حجمًا.

وبغض النظر عن طيور البطريق ، ليس من الصعب تخيل حالات استخدام أكثر تحديدًا تتجاوز المعايير ، سواء بالنسبة لصحفيي بلومبرج أو لعملائها النهائيين. (لم يحدد إعلان الشركة ما تخطط للقيام به بما قامت ببنائه.) مجموعة من ~ جميع التقارير التجارية الممتازة باللغة الإنجليزية في العالم - بالإضافة إلى عالم البيانات المالية ، المنظمة وغير ذلك ، التي تدعمها - هي مجرد نوع من أنواع المعلومات الغنية التي تم تصميم الذكاء الاصطناعي التوليدي من أجلها. إنها ذاكرة مؤسسية في صندوق.
ومع ذلك ، تنطبق جميع التحذيرات المعتادة الخاصة بـ LLMs. أنا متأكد من أن BloombergGPT يمكنها ، هلوسة. كل بيانات التدريب تأتي مع مجموعتها الخاصة من التحيزات المحتملة. (أراهن أن BloombergGPT لن تدعو لثورة البروليتاريا في أي وقت قريب).
فيما يتعلق بالكيفية التي يمكن أن تلهم بها BloombergGPT المؤسسات الإخبارية الأخرى ... حسنًا ، تقع Bloomberg في وضع فريد جدًا هنا ، مع حجم البيانات التي يتم تجميعها والمنتج الذي يمكن تطبيقه عليه. لكنني أعتقد أنه ستكون هناك ، على المدى الطويل ، فرص للناشرين الأصغر هنا ، خاصة أولئك الذين لديهم أرشيفات رقمية كبيرة. تخيل أن Anytown Gazette تدرب الذكاء الاصطناعي على 100 عام من أرشيف الصحف ، بالإضافة إلى مجموعة ضخمة من وثائق المدينة / المقاطعة / الولاية وأي مصادر أخرى للبيانات المحلية يمكنها الحصول عليها.
إنه مقياس مختلف تمامًا عما يمكن أن تصل إليه بلومبرج ، بالطبع ، وقد يكون أكثر فائدة كأداة داخلية من أي شيء يواجهه الجمهور. ولكن بالنظر إلى الوتيرة المذهلة للتقدم في الذكاء الاصطناعي خلال العام الماضي ، فقد تكون فكرة جديرة بالاهتمام في وقت أقرب مما تعتقد.
بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة