سد فجوات ChatGPT بقوة الصورة

القاهرة : الأمير كمال فرج.

نشر باحثو Microsoft مؤخرًا ورقة تهدف إلى الجمع بين إمكانات ChatGPT ونماذج الأساس المرئي مثل Stable Diffusion. تريد هذه البنية، المسماة "Visual ChatGPT"، سد الفجوة بين تحويل النص إلى صورة وتوليد اللغة الطبيعية.

ذكر أنيروده في كيه في تقرير نشرته مجلة Fast Company إن "رابطة الصناعة العالمية AIM تنبأت بأن الطريق ممهد لخوارزميات تحويل النص إلى صورة. يجمع النهج بين نقاط القوة في نموذج اللغة الكبيرة LLM مثل ChatGPT مع قوة توليد الصور، مما يوفر حزمة شاملة تغطي أوجه القصور في كلا النظامين الأساسيين. من خلال جلب معالجة اللغة الطبيعية إلى نماذج إنشاء الصور التي تعتمد على المعلما، من الممكن التفاعل مع الذكاء الاصطناعي بطريقة عضوية أكثر".

كيف يعمل Visual ChatGPT؟

ببساطة، يضيف العرض التوضيحي إمكانات مشاركة الصور مع ChatGPT. يتم تحقيق هذه الوظيفة باستخدام "مدير سريع" لمشاركة المعلومات بين نماذج الأساس المرئي المختلفة، مثل Stable Diffusion و ControlNet و BLIP و ChatGPT نفسها.

واجهة مدير موجه بين ChatGPT و VFMs لمعالجة الإخراج بسلاسة. على سبيل المثال، خذ مطبخ المطعم. في حين أن ChatGPT يشبه النادل الذي يتلقى طلبات العملاء، فإن VFMs مثل الطهاة في المطبخ الذين يقومون بإعداد الطبق. يتولى المدير الفوري دور مدير المطبخ، حيث يقوم بترحيل الطلبات والطعام بين النوادل والطهاة.

على هذا النحو ، يتضمن المدير الفوري بعض المنطق، مثل تنسيق المنطق الذي يساعد ChatGPT في تحديد ما إذا كان يحتاج إلى استخدام أداة (مثل VFM) لإعطاء المخرجات الضرورية. يعتني المدير الفوري أيضًا بالمنطق التكراري المستخدم لضبط صورة الإخراج. كما أنه يعتني ببعض التدبير المنزلي، مثل إدارة أسماء الملفات في إخراج ChatGPT وتتبع أسماء ملفات الصور.

يقع المدير الفوري في قلب هذا النظام حقًا، فعندما يدعوه ChatGPT للإجابة على أي نوع من الاستفسارات غير اللغوية. بطريقة ما، يوجه المدير الفوري ChatGPT نحو المخرجات المطلوبة من خلال سلسلة من المطالبات المخصصة. ينتج عن هذا إصدار أكثر قدرة من ChatGPT لا يعتمد على الهلوسة، وبدلاً من ذلك يُجبر على استدعاء قدرات VFM من خلال المدير الفوري.

في حين أن Visual ChatGPT قادر في حد ذاته، إلا أنه يضع سابقة أكثر روعة. هل من الممكن الجمع بين القدرات الهائلة لـنماذج اللغة الكبيرة LLM والنماذج المرئية؟، وهل يمكن أن تكون هذه إحدى الخطوات الأولى نحو الذكاء الاصطناعي العام؟

تغيير وجه النص إلى صورة

هناك مشكلة أساسية في كيفية عمل نماذج تحويل النص إلى صورة، وهي عدم فهمها عندما يتعلق الأمر بالسياق اللغوي. في ورقة بحثية تستكشف الفهم العلائقي لنماذج الذكاء الاصطناعي التوليدية، وجد الباحثون أن هذه النماذج لم "تفهم" العلاقات المادية لكائنات معينة.

على سبيل المثال، بينما كان النموذج قادرًا على إنشاء صور "لطفل يلمس وعاءًا" ، لم يكن قادرًا على إنشاء صورة "قرد يلامس إغوانة "(جنس من الزواحف). هذا بسبب عدم وجود معلومات كافية في بيانات التدريب للسيناريو الأخير، مما يؤدي إلى استجابات غير كافية. للتغلب على هذا الحد من نماذج تحويل النص إلى صورة، ظهرت وظيفة جديدة - AI whisperer أو الهندسة السريعة.

لا تزال عملية جعل نماذج الذكاء الاصطناعي "تفهم" البشر منطقة مجهولة، والتي يتم رسمها ببطء من قبل فناني الذكاء الاصطناعي الصاعدين. لهذا السبب لدينا مواقع ويب مثل "PromptHero" ، وهو مستودع للمطالبات لخوارزميات تحويل النص إلى صورة والتي تعمل فقط، وهذا أيضًا هو السبب في أن "حساء" كلمة تبدو بلا معنى يمكن أن توفر صورًا مذهلة للذكاء الاصطناعي.

يتطلب الحصول على ناتج قوي من نموذج تحويل النص إلى صورة قاعدة معرفية شاملة لما يجب المطالبة به. يتم استخدام المطالبات السلبية أيضًا لتجنب بعض الخصائص في الصورة المكتملة. بالنظر إلى الاتجاه الذي يتخذه مدير Microsoft الفوري، يبدو أن احتمالية هذه الوظيفة قد انتهت حتى قبل أن تبدأ.

من الأمثلة الواردة في صفحة GitHub، من الواضح أن المستخدمين لا يحتاجون إلى الانخراط في مثل هذه المطالبات المعقدة لنقل المعلومات إلى النموذج. يمكنهم ببساطة كتابة ما يريدونه من النموذج بلغة طبيعية. على سبيل المثال، بعد إنشاء صورة قطة، يطلب المستخدم من ChatGPT استبدال القطة بكلب. بدون أي مطالبات معقدة، تم إنشاء الصورة، مع قيام المستخدم بإجراء تغييرات متكررة عليها مثل تغيير لونها.

لا يمكن لأدوات مثل Visual ChatGPT تقليل حاجز الدخول إلى نماذج تحويل النص إلى صورة فحسب، بل يمكن أيضًا استخدامها لإضافة إمكانية التشغيل البيني لمختلف أدوات الذكاء الاصطناعي. كانت نماذج اللغة الكبيرة LLM ومستشعر صورة T2I موجودة سابقًا في الصوامع، ولكن من خلال تقنيات مثل المدير الفوري، قد نتمكن من تضخيم قدرات هذه النماذج الحديثة.