القاهرة: الأمير كمال فرج.
نظرًا لنتائجها الرائعة في مجموعة واسعة من مهام البرمجة اللغوية العصبية، حظيت نماذج اللغات الكبيرة (LLMs) مثل ChatGPT باهتمام كبير من الباحثين والشركات على حدٍ سواء. لذلك برزت الحاجة إلى تعاون LLM مع النماذج الأخرى لتسخير إمكاناتها الكاملة وتولي وظائف الذكاء الاصطناعي الصعبة.
ذكر دانشري شريباد شنواي تقرير نشره موقع Marktechpost أن "باستخدام التعلم المعزز من ردود الفعل البشرية (RLHF) والتدريب المسبق المكثف على نصوص نصية هائلة، يمكن أن تولد LLM قدرًا أكبر من فهم اللغة، والتوليد ، والتفاعل، وقدرات التفكير. لقد أثارت الإمكانات الهائلة لـ LLMs عددًا كبيرًا من مجالات الدراسة الجديدة، والفرص الناتجة عن تطوير أنظمة الذكاء الاصطناعي المتطورة لا حدود لها تقريبًا".
يجب أن تتعاون LLM مع النماذج الأخرى لتسخير إمكاناتها الكاملة وتولي وظائف الذكاء الاصطناعي الصعبة. لذلك، يعد اختيار البرامج الوسيطة المناسبة لإنشاء قنوات اتصال بين نماذج LLM ونماذج الذكاء الاصطناعي أمرًا بالغ الأهمية.
لحل هذه المشكلة، يدرك الباحثون أن كل نموذج من نماذج الذكاء الاصطناعي يمكن تمثيله كلغة من خلال تلخيص وظيفة النموذج. نتيجة لذلك، يقترح الباحثون فكرة أن "LLMs تستخدم اللغة كواجهة عامة لربط نماذج الذكاء الاصطناعي المختلفة معًا".
على وجه التحديد، يمكن النظر إلى LLM على أنها الجهاز العصبي المركزي لإدارة نماذج الذكاء الاصطناعي مثل التخطيط والجدولة والتعاون لأنها تتضمن أوصافًا للنموذج في المطالبات. نتيجة لذلك، يمكن أن تستخدم LLM الآن هذا التكتيك لاستدعاء نماذج الطرف الثالث لإكمال الأنشطة المتعلقة بالذكاء الاصطناعي.
ومع ذلك، تنشأ صعوبة أخرى إذا رغب المرء في دمج نماذج الذكاء الاصطناعي المختلفة في LLMs: للقيام بالعديد من مهام الذكاء الاصطناعي، يحتاجون إلى جمع العديد من أوصاف النماذج عالية الجودة، والتي تتطلب هندسة سريعة مكثفة. تمتلك العديد من مجتمعات ML العامة مجموعة واسعة من النماذج المناسبة لحل مهام محددة للذكاء الاصطناعي، بما في ذلك اللغة والرؤية والصوت، وهذه النماذج لها أوصاف واضحة وموجزة.
هاجن جي بي تي HuggingGPT، هو إطار عمل متطور يستخدم نماذج لغة كبيرة (LLMs) لتنسيق العديد من نماذج الذكاء الاصطناعي للتعامل مع المهام الصعبة. حيث يمكنه معالجة المدخلات من عدة طرائق وحل العديد من مشاكل الذكاء الاصطناعي المعقدة، يقترحها فريق البحث لربط LLMs (مثل ChatGPT) ومجتمع ML (أي Hugging Face).
للتواصل مع ChatGPT، يجمع الباحثون وصف النموذج من المكتبة المطابق لكل نموذج AI في Hugging Face مع الموجه. بعد ذلك، ستكون LLM (أي ChatGPT) بمثابة "عقل" النظام للإجابة على استفسارات المستخدمين.
يمكن للباحثين والمطورين العمل معًا على نماذج ومجموعات بيانات معالجة اللغة الطبيعية بمساعدة HuggingFace Hub. على سبيل المكافأة، يحتوي على واجهة مستخدم مباشرة لتحديد وتنزيل النماذج الجاهزة للاستخدام لتطبيقات البرمجة اللغوية العصبية المختلفة.
مراحل HuggingGPT
يمكن تقسيم HuggingGPT إلى أربع خطوات مميزة:
1ـ تخطيط المهام: استخدام ChatGPT لتفسير طلبات المستخدم من حيث المعنى، ثم تقسيمها إلى مهام منفصلة وقابلة للتنفيذ مع التوجيه على الشاشة.
2ـ اختيار النموذج: بناءً على أوصاف النموذج، يختار ChatGPT النماذج الخبيرة المخزنة على Hugging Face لإكمال المهام المحددة مسبقًا.
3ـ تنفيذ المهمة: قم بالاتصال وتشغيل كل نموذج تم اختياره، ثم قم بإبلاغ ChatGPT بالنتائج.
4ـ بعد دمج توقعات جميع النماذج مع ChatGPT، فإن الخطوة الأخيرة هي إنشاء إجابات للمستخدمين.
فحص عن كثب
يبدأ HuggingGPT بنموذج لغة ضخم يقسم طلب المستخدم إلى خطوات منفصلة. يجب أن يؤسس نموذج اللغة الكبير علاقات المهام والنظام أثناء التعامل مع المتطلبات المعقدة. يستخدم HuggingGPT مجموعة من التعليمات المستندة إلى المواصفات والتحليل المستند إلى العرض التوضيحي في تصميمه السريع لتوجيه نموذج اللغة الكبير نحو التخطيط الفعال للمهمة. الفقرات التالية بمثابة مقدمة لهذه التفاصيل.
يجب على HuggingGPT بعد ذلك تحديد النموذج المناسب لكل مهمة في قائمة المهام بعد تحليل قائمة الوظائف. يقوم الباحثون بذلك عن طريق سحب أوصاف نموذج الخبراء من Hugging Face Hub ثم استخدام آلية تعيين نموذج المهمة في السياق لاختيار النماذج التي سيتم تطبيقها على مهام معينة بشكل ديناميكي. هذه الطريقة أكثر قابلية للتكيف وانفتاحًا يمكن لأي شخص استخدامها تدريجيًا.
الخطوة التالية بعد إعطاء مهمة للنموذج هي تنفيذه، وهي عملية تُعرف باسم الاستدلال النموذجي. يستخدم HuggingGPT نقاط نهاية الاستدلال المختلط لتسريع وضمان الاستقرار الحسابي لهذه النماذج. تستقبل النماذج وسيطات المهام كمدخلات، وتقوم بإجراء الحسابات اللازمة، ثم تعيد نتائج الاستدلال إلى نموذج اللغة الأكبر.
يمكن موازاة النماذج التي لا تحتوي على تبعيات للموارد لزيادة كفاءة الاستدلال بشكل أكبر. هذا يسمح بالبدء المتزامن للعديد من المهام مع تلبية جميع تبعياتها.
ينتقل HuggingGPT إلى خطوة توليد الاستجابة بمجرد تنفيذ جميع المهام. يجمع HuggingGPT نتائج الخطوات الثلاث السابقة (تخطيط المهام واختيار النموذج وتنفيذ المهام) في تقرير واحد متماسك. يفصل هذا التقرير المهام التي تم التخطيط لها والنماذج التي تم اختيارها لتلك المهام والاستنتاجات التي تم استخلاصها من تلك النماذج.
مساهمات
يوفر بروتوكولات تعاون بين النماذج لتكملة فوائد النماذج اللغوية والخبيرة الكبيرة. أصبحت الأساليب الجديدة لإنشاء نماذج الذكاء الاصطناعي العامة ممكنة من خلال فصل نماذج اللغة الكبيرة ، التي تعمل كعقل للتخطيط واتخاذ القرار، عن النماذج الأصغر ، التي تعمل كمنفذين لكل مهمة معينة.
من خلال ربط Hugging Face hub بأكثر من 400 نموذج خاص بالمهام تتمحور حول ChatGPT، يمكن للباحثين إنشاء HuggingGPT والتعامل مع فئات واسعة من مشاكل الذكاء الاصطناعي. يمكن لمستخدمي HuggingGPT الوصول إلى خدمات الدردشة متعددة الوسائط التي يمكن الاعتماد عليها بفضل التعاون المفتوح للنماذج.
تُظهر العديد من التجارب على العديد من مهام الذكاء الاصطناعي الصعبة في اللغة والرؤية والكلام والوسائل المتعددة أن HuggingGPT يمكنه فهم وحل المهام المعقدة عبر طرائق ومجالات متعددة.
مزايا
يمكن لـ HuggingGPT أداء العديد من مهام الذكاء الاصطناعي المعقدة ودمج المهارات الإدراكية متعددة الوسائط لأن تصميمه يسمح له باستخدام نماذج خارجية.
بالإضافة إلى ذلك، يمكن أن تستمر HuggingGPT في استيعاب المعرفة من المتخصصين في مجال معين بفضل هذا الخط، مما يتيح إمكانات الذكاء الاصطناعي القابلة للتوسيع والقابلة للتطوير.
قامت HuggingGPT بدمج المئات من نماذج Hugging Face حول ChatGPT، والتي تغطي 24 مهمة مثل تصنيف النص، واكتشاف الهدف، والتجزئة الدلالية، وتوليد الصور، والإجابة على الأسئلة، وتحويل النص إلى كلام، وتحويل النص إلى فيديو. تظهر النتائج التجريبية أن HuggingGPT يمكنه التعامل مع مهام الذكاء الاصطناعي المعقدة والبيانات متعددة الوسائط.
محددات
ستكون هناك دائمًا قيود مع HuggingGPT. تعتبر الكفاءة مصدر قلق كبير لنا لأنها تمثل حاجزًا محتملاً أمام النجاح.
إن استنتاج نموذج اللغة الهائل هو عنق الزجاجة الرئيسي في الكفاءة. يجب أن يتفاعل HuggingGPT مع نموذج اللغة الضخم عدة مرات لكل جولة طلب مستخدم. يحدث هذا أثناء تخطيط المهام واختيار النموذج وتوليد الاستجابة. تعمل هذه التبادلات على إطالة أوقات الاستجابة بشكل كبير، مما يقلل من جودة خدمة المستخدمين النهائيين. والثاني هو الحد الأقصى لطول القيود الموضوعة على السياقات.
HuggingGPT له حد أقصى لطول السياق بسبب الحد الأقصى المسموح به لعدد الرموز المميزة في LLM. لمعالجة هذا الأمر، ركزت الدراسات فقط على مرحلة تخطيط المهام في نافذة الحوار وتتبع السياق.
الشاغل الرئيسي هو موثوقية النظام ككل. أثناء الاستدلال، يمكن أن تنحرف نماذج اللغات الكبيرة أحيانًا عن التعليمات، ويمكن أن يفاجئ تنسيق الإخراج المطورين أحيانًا. ومن الأمثلة على ذلك تمرد النماذج اللغوية الكبيرة جدًا أثناء الاستدلال.
ختاماً
يتطلب تحسين الذكاء الاصطناعي حل المشكلات الصعبة عبر مجموعة متنوعة من المجالات والطرائق. على الرغم من وجود العديد من نماذج الذكاء الاصطناعي، يجب أن تكون أكثر قوة للتعامل مع مهام الذكاء الاصطناعي المعقدة.
يمكن أن تكون اللغات الكبيرة LLMs وحدة تحكم لإدارة نماذج الذكاء الاصطناعي AI الحالية لأداء مهام AI المعقدة. اللغة هي واجهة عامة لأن LLMs أثبتت كفاءة معالجة اللغة والتوليد والتفاعل والتفكير المنطقي.
تمشيا مع هذه الفكرة، قدم الباحثون HuggingGPT. يستخدم هذا الإطار LLMs (مثل ChatGPT) لربط نماذج الذكاء الاصطناعي المختلفة من المجتمعات الأخرى لمتعلمي الآلة (مثل Hugging Face) لإكمال المهام المتعلقة بالذكاء الاصطناعي.
بشكل أكثر تحديدًا، يستخدم ChatGPT لتنظيم المهام بعد تلقي طلب المستخدم، واختيار النماذج بناءً على أوصاف وظائفها في Hugging Face ، وتشغيل كل مهمة فرعية باستخدام نموذج AI المختار ، وتجميع استجابة من نتائج عمليات التشغيل.
يمهد HuggingGPT الطريق للذكاء الاصطناعي المتطور من خلال الاستفادة من القدرات اللغوية الفائقة لـ ChatGPT وثروة Hugging Face من نماذج الذكاء الاصطناعي لأداء مجموعة واسعة من مهام الذكاء الاصطناعي المعقدة عبر العديد من الطرائق والمجالات، مع نتائج مذهلة في مجالات مثل اللغة والرؤية والصوت ، وأكثر.