القاهرة : الأمير كمال فرج.
لا يقتصر استخدام عمالقة التكنولوجيا على الذكاء الاصطناعي لفهم اللغة البشرية، بحيث يمكن للمنتجات مثل المساعدين الرقميين الرد على الأسئلة الأساسية، ولكن هناك أكثر من ذلك.
ذكر تقرير نشرته مجلة Fortune أن "الشركات الأكثر تقليدية تستخدم أيضًا بشكل متزايد مجموعة فرعية من الذكاء الاصطناعي. تسمى معالجة اللغة الطبيعية (NLP) لإنشاء برامج أكثر قوة للمساعدة في الإجابة على استفسارات مركز اتصال العملاء الأساسية، أو إنشاء ملخصات لمستندات طويلة ومعقدة".
على سبيل المثال ، تستخدم شركة LexisNexis البرمجة اللغوية العصبية لتحسين برامج البحث القانوني التي يستخدمها المحامون والصحفيون والمحللون للعثور على مستندات المحكمة ذات الصلة.
وLexisNexis هي شركة تقدم أبحاثًا قانونية بمساعدة الكمبيوتر بالإضافة إلى أبحاث الأعمال وخدمات إدارة المخاطر. خلال سبعينيات القرن الماضي ، كانت LexisNexis رائدة في إمكانية الوصول الإلكتروني إلى المستندات القانونية والصحفية.
مع الذكاء الاصطناعي، أصبحت واجهة بحث LexisNexis أكثر سهولة، ويرجع ذلك جزئيًا إلى أن الشركة استخدمت نموذج اللغة BERT المجاني والمفتوح المصدر من Google كأساس. نموذج BERT ، الذي تم تدريبه على كمية هائلة من بيانات الويب بما في ذلك صفحات Wikipedia ، يساعد البرنامج على فهم أفضل للكيفية التي تعني بها بعض الكلمات أشياء مختلفة اعتمادًا على السياق الذي تظهر فيه.
لكن لا تستطيع LexisNexis استخدام BERT لجميع احتياجاتها اللغوية، لأن الشركة تتعامل مع المعلومات الخاصة بالصناعة القانونية. لا يمكن مثلا العثور على هذه البيانات المحددة على الويب المفتوح، مما يعني أن المعلومات لا يتم تخزينها في BERT.
قال مين تشين ، نائب الرئيس وكبير مسؤولي التكنولوجيا في Lexis Nexis Asia-Pacific وفريق البحث العالمي ، أن BERT "توفر نموذجًا أساسيًا جيدًا للبدء به". لكن يجب على الشركة تحسين التكنولوجيا ببيانات قانونية إضافية بحيث تفهم اللغويات القانونية".
هذا الضبط الدقيق شائع بشكل متزايد للعديد من الشركات العاملة في مجالات مثل التمويل أو الرعاية الصحية. كل صناعة لها لغتها الخاصة التي لا معنى لها في سياق آخر.
قال تشين إن الأمر استغرق 12 شهرًا من برنامج LexisNexis لتدريب نسخة من BERT تتفهم استشهادات الحالة وحتى اللغة اللاتينية. إذا أراد شخص ما العثور على مستند يوضح أن القضية قد تم الفصل فيها أو إغلاقها ، فإن التكنولوجيا تعرف أنها تبحث عن مستندات بالمصطلح اللاتيني res judicata (استبعاد المطالبة ، أو اتخاذ قرار بشأن المسألة).
وأوضحت أماندا ستنت ، خبيرة البرمجة اللغوية العصبية لخدمة الأخبار المالية والمعلومات بلومبرج ، أن "التقنيات مثل BERT مهمة لأنها تزيل الكثير من العمل الشاق المطلوب لتدريب نموذج لغوي من البداية. بالنسبة للجملة المكونة من 10 كلمات ، تعتبر مجموعات ضخمة من الكلمات، ولكن وجود نموذج لغة قوي مثل BERT كنقطة بداية مفيد للغاية".
ولكن مثل الذكاء الاصطناعي. أشار الباحثون إلى أنه نظرًا لأن النماذج اللغوية يتم تدريبها عادةً على بيانات الإنترنت ، فإنهم أحيانًا يردون بببغاوات النص المسيء الذي قاموا بمسحه ضوئيًا، ولكن الشركات يمكنها اتخاذ الاحتياطات لتقليل احتمالية حدوث ذلك.
نشرت ستنت وزملاؤها مؤخرًا أفضل الممارسات التي يمكن للشركات اتباعها عند تدريب نماذج اللغة المدعومة بالذكاء الاصطناعي وأنظمة التعلم الآلي الأخرى، وأوصوا باستخدام خبراء في الموضوع البشري للمساعدة في وضع تعليقات توضيحية على النص المستخدم للتدريب (لضمان تسمية البيانات بدقة) ، والتأكد من أن مديري المنتج والمهندسين ينسقون في المشاريع الكبيرة (للمساعدة في ضمان عدم تسرب المشكلات من خلال الفجوات).
الهدف هو القضاء على أي مشاكل قبل أن تقدم الشركات منتجات جديدة. بعد كل شيء ، لا يوجد مستخدم يريد أن يتعرض لهجوم بلغة منحطة.
الشيء الوحيد الذي يجب أن تكون الشركات مستعدة له هو أن مشاريع التدريب على البيانات لم تفعل بعد، لذلك هناك دائمًا مجال للتحسين.