القاهرة: الأمير كمال فرج.
كشف خبراء إن 80% من نتائج أداة النسخ Whisper الخاصة بشركة OpenAI عبارة عن هلوسة، ووجد الباحثون أن ما يقرب من 40% من هلوسات الذكاء الاصطناعي كانت ضارة أو مثيرة للقلق لأن المتحدث يمكن أن يساء تفسيره أو تمثيله بشكل خاطئ.
Whisper هو نظام التعرف التلقائي على الكلام (ASR) المدرب على 680.000 ساعة من البيانات الخاضعة للإشراف متعددة اللغات والمهام والتي تم جمعها من الويب. يتيح النسخ بلغات متعددة، وكذلك الترجمة من تلك اللغات إلى اللغة الإنجليزية.
ذكر غارانس بيرك، وهيلك شيلمان في تقرير نشرته مجلة Fortune أن "شركة OpenAI العملاقة في مجال التكنولوجيا أشادت بأداة النسخ التي تعمل بالذكاء الاصطناعي Whisper زاعمة أنها تتمتع بـ "قوة ودقة على مستوى الإنسان تقريبًا، لكن Whisper في الحقيقة بها عيب كبير".
وفقًا لمقابلات مع أكثر من عشرة مهندسين ومطورين وباحثين أكاديميين في مجال البرمجيات، فإن أداة النسخ Whisper عرضة لتحلايف أجزاء من النص أو حتى جمل كاملة، وبعض النصوص المخترعة - المعروفة في الصناعة باسم الهلوسة - يمكن أن تتضمن تعليقات عنصرية وخطابات عنيفة وحتى علاجات طبية متخيلة".
وقال الخبراء إن مثل هذه التلفيقات تشكل مشكلة لأن Whisper تُستخدم في عدد كبير من الصناعات في جميع أنحاء العالم لترجمة ونسخ المقابلات، وإنشاء نصوص في تقنيات المستهلك الشائعة وإنشاء ترجمات لمقاطع الفيديو.
وقالوا إن الأمر الأكثر إثارة للقلق هو اندفاع المراكز الطبية لاستخدام أدوات تعتمد على Whisper لنسخ استشارات المرضى مع الأطباء، على الرغم من تحذيرات OpenAI من أنه لا ينبغي استخدام الأداة في "المجالات عالية الخطورة".
من الصعب تحديد حجم المشكلة، لكن الباحثين والمهندسين قالوا إنهم واجهوا هلوسات Whisper بشكل متكرر في عملهم. على سبيل المثال، قال باحث من جامعة ميشيغان أجرى دراسة على الاجتماعات العامة إنه وجد هلوسات في 8 من كل 10 نسخ صوتية فحصها، قبل أن يبدأ في محاولة تحسين النموذج.
قال مهندس التعلم الآلي إنه اكتشف في البداية هلوسات في حوالي نصف أكثر من 100 ساعة من نسخ Whisper التي حللها. وقال مطور ثالث إنه وجد هلوسات في كل واحدة تقريبًا من 26000 نسخة منقولة أنشأها باستخدام Whisper.
وتستمر المشاكل حتى في عينات الصوت القصيرة المسجلة جيدًا. كشفت دراسة حديثة أجراها علماء الكمبيوتر عن 187 هلوسة في أكثر من 13000 مقطع صوتي واضح قاموا بفحصه.
وقال الباحثون إن هذا الاتجاه من شأنه أن يؤدي إلى عشرات الآلاف من النسخ المعيبة على ملايين التسجيلات.
أوضحت ألوندرا نيلسون، أستاذة في معهد الدراسات المتقدمة في برينستون، نيو جيرسي، إن مثل هذه الأخطاء يمكن أن يكون لها "عواقب وخيمة حقًا"، خاصة في المستشفيات، حيث يمكن أن يؤدي ذلك إلى تشخيصات طبية خاطئًة.
يتم استخدام Whisper أيضًا لإنشاء ترجمة مغلقة للصم وضعاف السمع - وهي فئة معرضة بشكل خاص لخطر النسخ المعيبة. قال كريستيان فوجلر، وهو أصم ويدير برنامج الوصول إلى التكنولوجيا بجامعة Gallaudet، إن السبب في ذلك هو أن الصم وضعاف السمع ليس لديهم طريقة لتحديد "التلفيقات المخفية بين النصوص المختلفة".
معالجة المشكلة
أدى انتشار مثل هذه الهلوسة إلى دفع الخبراء والمدافعين والموظفين السابقين في OpenAI إلى دعوة الحكومة الفيدرالية للنظر في لوائح الذكاء الاصطناعي. وقالوا إنه على الأقل، تحتاج OpenAI إلى معالجة الخلل.
قال ويليام سوندرز، مهندس أبحاث مقيم في سان فرانسيسكو والذي استقال من OpenAI في فبراير بسبب مخاوف بشأن اتجاه الشركة إن "هذه المشكلة يجب أن تحل بسرعة، لإن من الخطوة بمكان الإبقاء على هذه الأداة، والناس يثقون بها ولا يعلمون خطورة ما تفعله، خاصة عند دمجها في برامج أخرى".
قال متحدث باسم OpenAI إن الشركة تدرس باستمرار كيفية تقليل الهلوسة وأعرب عن تقديره لنتائج الباحثين، مضيفًا أن OpenAI تدمج الملاحظات في تحديثات النموذج.
في حين يفترض معظم المطورين أن أدوات النسخ تخطئ في تهجئة الكلمات أو ترتكب أخطاء أخرى، قال المهندسون والباحثون إنهم لم يروا أبدًا أداة نسخ أخرى مدعومة بالذكاء الاصطناعي تهلوس بقدر ما تفعله Whisper.
هلوسات Whisper
تم دمج أداة Whisper في بعض إصدارات برنامج ChatGPT الرائد من OpenAI، وهو عرض مدمج في منصات الحوسبة السحابية من Oracle وMicrosoft، والتي تخدم آلاف الشركات في جميع أنحاء العالم. كما يتم استخدامها لنسخ وترجمة النص إلى لغات متعددة.
في الشهر الماضي وحده، تم تنزيل إصدار حديث من Whisper أكثر من 4.2 مليون مرة من منصة الذكاء الاصطناعي مفتوحة المصدر HuggingFace. قال سانشيت غاندي، مهندس التعلم الآلي هناك، إن Whisper هو نموذج التعرف على الكلام مفتوح المصدر الأكثر شيوعًا ومدمج في كل شيء من مراكز الاتصال إلى المساعدين الصوتيين.
قام الأستاذان أليسون كوينيكي من جامعة كورنيل ومونا سلون من جامعة فيرجينيا بفحص آلاف المقاطع القصيرة التي حصلوا عليها من TalkBank، وهو مستودع أبحاث تستضيفه جامعة Carnegie Mellon. وقد حددا أن ما يقرب من 40٪ من الهلوسة كانت ضارة أو مثيرة للقلق لأن المتحدث يمكن أن يُساء تفسيره أو تمثيله بشكل خاطئ.
في أحد الأمثلة التي اكتشفاها، قال أحد المتحدثين، "كان الصبي، على وشك أن يأخذ المظلة، لست متأكدًا بالضبط".
لكن برنامج النسخ أضاف: "لقد أخذ قطعة كبيرة من الصليب، قطعة صغيرة جدًا ... أنا متأكد من أنه لم يكن لديه سكين إرهاب، لذلك قتل عددًا من الأشخاص".
وصف متحدث في تسجيل آخر "فتاتين أخريين وسيدة واحدة". اخترع Whisper تعليقًا إضافيًا عن العرق، مضيفًا "فتاتين أخريين وسيدة واحدة، أممم، كانتا من السود". في نسخة ثالثة، اخترع Whisper دواءً غير موجود يسمى "المضادات الحيوية المفرطة النشاط".
لا يعرف الباحثون على وجه اليقين سبب هلوسة Whisper والأدوات المماثلة، لكن مطوري البرامج قالوا إن عمليات التلفيق تميل إلى الحدوث وسط فترات توقف أو في حال وجود أصوات خلفية أو تشغيل موسيقى.
أوصت OpenAI في إفصاحاتها عبر الإنترنت بعدم استخدام Whisper في "سياقات صنع القرار، حيث يمكن أن تؤدي العيوب في الدقة إلى عيوب واضحة في النتائج".
نسخ تقارير الأطباء
لم يمنع هذا التحذير المستشفيات أو المراكز الطبية من استخدام نماذج تحويل الكلام إلى نص، بما في ذلك Whisper، لنسخ ما يقال أثناء زيارات الطبيب لتحرير تقارير مقدمي الخدمات الطبية لقضاء وقت أقل في تدوين الملاحظات أو كتابة التقارير.
بدأ أكثر من 30 ألف طبيب و40 نظامًا صحيًا، بما في ذلك عيادة Mankato في مينيسوتا ومستشفى الأطفال في لوس أنجلوس، في استخدام أداة تعتمد على Whisper تم إنشاؤها بواسطة Nabla، والتي لديها مكاتب في فرنسا والولايات المتحدة.
قال مارتن رايسون، كبير مسؤولي التكنولوجيا في شركة Nabla، إن هذه الأداة تم ضبطها بدقة على اللغة الطبية لنسخ وتلخيص تفاعلات المرضى. في الوقت نفسه قال مسؤولون في الشركة إنهم يدركون أن Whisper يمكن أن يسبب الهلوسة ويعملون على تخفيف المشكلة.
قال رايسون إنه من المستحيل مقارنة النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من Nabla بالتسجيل الأصلي لأن أداة Nabla تمحو الصوت الأصلي "لأسباب تتعلق بسلامة البيانات"، مشيرًا إلى أن الأداة تم استخدامها لنسخ ما يقدر بنحو 7 ملايين زيارة طبية.
قال سوندرز، المهندس السابق في OpenAI، إن محو الصوت الأصلي قد يكون مثيرًا للقلق إذا لم يتم التحقق من النصوص مرتين أو لم يتمكن الأطباء من الوصول إلى التسجيل للتحقق من صحته. وأضاف : "لا يمكنك اكتشاف الأخطاء إذا أزلت الحقيقة الأساسية".
قالت شركة Nabla إنه لا يوجد نموذج مثالي، وأن نموذجهم يتطلب حاليًا من مقدمي الخدمات الطبية تحرير الملاحظات المنقولة والموافقة عليها بسرعة، لكن هذا قد يتغير.
مخاوف الخصوصية
نظرًا لأن اجتماعات المرضى مع أطبائهم سرية، فمن الصعب معرفة كيف تؤثر النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي عليهم.
قالت ريبيكا باور كاهان، عضوة مجلس الشيوخ عن ولاية كاليفورنيا، إنها أخذت أحد أطفالها إلى الطبيب في وقت سابق من هذا العام، ورفضت التوقيع على نموذج قدمته شبكة الصحة لطلب إذنها بمشاركة الصوت الاستشاري مع البائعين بما في ذلك Microsoft Azure، نظام الحوسبة السحابية الذي تديره أكبر مستثمر في OpenAI.
وأوضحت باور كاهان انها رفضت مشاركة مثل هذه المحادثات الطبية الحميمة مع شركات التكنولوجيا. قالت باور كاهان، وهي ديمقراطية تمثل جزءًا من ضواحي سان فرانسيسكو في جمعية الولاية: "كان البيان واضحًا للغاية بأن الشركات التي تعمل من أجل الربح سيكون لها الحق في ذلك". فقلت "لا على الإطلاق ".
قال بن درو المتحدث باسم John Muir Health، ، إن النظام الصحي يتوافق مع قوانين الولايات والحكومة الفيدرالية.