تسجيل الدخول
برنامج ذكاء اصطناعي من غوغل يكشف السرطان       تقنية الليزر تثبت أن الديناصورات كانت تطير       يوتيوب تي في.. خدمة جديدة للبث التلفزيوني المباشر       الخارجية الأمريكية تنشر ثم تحذف تهنئة بفوز مخرج إيراني بالأوسكار       الصين تدرس تقديم حوافز مالية عن إنجاب الطفل الثاني       حفل الأوسكار يجذب أقل نسبة مشاهدة أمريكية منذ 2008       تعطل في خدمة أمازون للحوسبة السحابية يؤثر على خدمات الإنترنت       حاكم دبي يقدم وظيفة شاغرة براتب مليون درهم       ترامب يتعهد أمام الكونغرس بالعمل مع الحلفاء للقضاء على داعش       بعد 17 عاما نوكيا تعيد إطلاق هاتفها 3310       لافروف: الوضع الإنساني بالموصل أسوأ مما كان بحلب       فيتو لروسيا والصين يوقف قرارا لفرض عقوبات على الحكومة السورية       بيل غيتس يحذر العالم ويدعوه للاستعداد بوجه الإرهاب البيولوجي       ابنا رئيس أمريكا يزوران دبي لافتتاح ملعب ترامب للغولف       رونالدو وأنجلينا جولي ونانسي عجرم في فيلم يروي قصة عائلة سورية نازحة      



البيجامه الحمراء نموذج لغة كبير بحجم 1.2 تريليون رمز


القاهرة: الأمير كمال فرج.

كان تطوير نماذج اللغة الكبيرة قوة دافعة في مجال الذكاء الاصطناعي. ومع ذلك ، فإن أقوى طراز GPT-4 هو نموذج تجاري مغلق تمامًا ، والعديد من النماذج الشهيرة الأخرى ، مثل LLaMA و Alpaca و Vicuna و Koala ، ليست مفتوحة المصدر بالكامل. وقد حد هذا من إمكانية الوصول إليها وأعاق التقدم في هذا المجال. واجه فريق يسمى Together Compute التحدي المتمثل في إنشاء نسخة مفتوحة المصدر بالكامل من النموذج القابل للتكرار مع مشروع RedPajama.

رد بجاما RedPajama أو "البيجامة الحمراء" مشروع لإنشاء مجموعة من برمجيات الذكاء الاصطناعي الرائدة مفتوحة المصدر بالكامل، ويعتمد المشروع على إعادة إنتاج مجموعة بيانات التدريب LLaMA وهي مجموعة من نماذج اللغة لأكثر من 1.2 تريليون رمز.

ذكر بريان وانج وهو رائد الفكر المستقبلي ومدون علمي في مقال نشره موقع Nextbigfuture أن "الذكاء الاصطناعي يمر بلحظة فارقة، فقد أظهر Stable Diffusion وهو نموذجًا للتعلم المتعمق من نص إلى صورة تم إصداره عام 2022 أن المصدر المفتوح لا يمكنه منافسة جودة العروض التجارية مثل تنةذج التعلم المتعمق DALL-E فحسب، بل يمكن أن يؤدي أيضًا إلى إبداع مذهل من خلال مشاركة واسعة من قبل المجتمعات في جميع أنحاء العالم".

بدأت حركة مماثلة الآن حول نماذج اللغات الكبيرة مع الإصدار الأخير للنماذج شبه المفتوحة مثل LLaMA و Alpaca و Vicuna و Koala؛ بالإضافة إلى نماذج مفتوحة بالكامل مثل Pythia و OpenChatKit و Open Assistant و Dolly.

مشروع رد بجاما  RedPajama محاولة لإنتاج نموذج لغة رائد قابل للتكرار ومفتوح بالكامل، بالتعاون بين Together و Ontocord.ai و ETH DS3Lab و Stanford CRFM و Hazy Research و MILA Québec AI Institute، ويحتوي RedPajama على ثلاثة مكونات رئيسية:

* بيانات ما قبل التدريب، والتي يجب أن تكون عالية الجودة وذات تغطية واسعة

* النماذج الأساسية، التي يتم تدريبها على نطاق واسع على هذه البيانات

* بيانات ونماذج ضبط التعليمات، والتي تعمل على تحسين النموذج الأساسي لجعله قابلاً للاستخدام وآمنًا.

نقطة البداية هي LLaMA ، وهي المجموعة الرائدة لبرمجيات القاعدة المفتوحة لسببين: أولاً ، تم تدريب LLaMA على مجموعة بيانات كبيرة جدًا (1.2 تريليون رمز) تمت تصفيتها بعناية من أجل الجودة. ثانيًا، تم تدريب نموذج LLaMA البالغ 7 مليارات متغير لفترة أطول بكثير، تتجاوز بكثير نقطة Chincilla المثالية، لضمان أفضل جودة في حجم النموذج هذا.

يعد نموذج 7 مليارات معلمة ذا قيمة خاصة للمجتمع المفتوح حيث يمكن تشغيله على مجموعة متنوعة من وحدات معالجة الرسومات، بما في ذلك العديد من وحدات معالجة الرسومات الخاصة بالمستهلكين.

مجموعة بيانات قاعدة RedPajama

يمكن تنزيل مجموعة بيانات RedPajama الكاملة 1.2 تريليون رمز وعينة عشوائية أصغر وأكثر قابلية للاستهلاك من خلال Hugging Face. مجموعة البيانات الكاملة ~ 5 تيرا بايت غير مضغوطة على القرص و ~ 3 تيرا بايت لتنزيلها مضغوطة.

يتكون RedPajama-Data-1T من سبع شرائح بيانات:

1ـ CommonCrawl: خمس عمليات تفريغ لـ CommonCrawl ، تتم معالجتها باستخدام خط أنابيب CCNet ، ويتم تصفيتها عبر العديد من عوامل تصفية الجودة بما في ذلك المصنف الخطي الذي يختار الصفحات المشابهة لـ Wikipedia.

2ـ C4: مجموعة بيانات C4 القياسية

3ـ GitHub: بيانات GitHub ، تمت تصفيتها حسب التراخيص والجودة
 غيت هاب  شركة تابعة لمايكروسوفت توفر استضافة لتطوير البرامج والتحكم في الإصدار باستخدام جت. توفر الشركة وظائف التحكم في الإصدار الموزع وإدارة كود المصدر لـ «غيت»، بالإضافة إلى ميزاته الخاصة.

4ـ أركايف arXiv: المقالات العلمية التي تزيل النموذج المعياري
 أركايف أرشيف لمسودات أوراق علمية إلكترونية مكتوبة في مجالات الفيزياء، الرياضيات، الفلك، علم الحاسوب، والإحصاء التي يمكن الوصول إليها عبر الإنترنت

5ـ الكتب: مجموعة من الكتب المفتوحة ، تمت إزالتها من خلال تشابه المحتوى

6ـ ويكيبيديا: مجموعة فرعية من صفحات ويكيبيديا ، تزيل الصيغة المعيارية

7ـ StackExchange: مجموعة فرعية من مواقع الويب الشهيرة ضمن StackExchange ، مع إزالة النموذج المعياري
ستاك إكستشينج Stack Exchange هي شبكة من مواقع الأسئلة والأجوبة التي يهتم كل منها باختصاص معين.

 النماذج والتعليمات و OpenChatKit

بعد إعادة إنتاج بيانات ما قبل التدريب، فإن الخطوة التالية هي تدريب نموذج أساسي قوي. كجزء من برنامج INCITE ، وبدعم من Oak Ridge Leadership Computing Facility (OLCF) ، نقوم بتدريب مجموعة كاملة من النماذج ، وسيصبح أول نموذج متاحًا في الأسابيع المقبلة.

مع وجود نموذج أساسي قوي في متناول اليد، نحن متحمسون لتعليمات ضبط النماذج. أوضحت Alpaca قوة ضبط التعليمات - مع تعليمات متنوعة وعالية الجودة تبلغ 50 ألفًا فقط ، كانت قادرة على إطلاق العنان لقدرات محسّنة بشكل كبير.

عبر نموذج الدردشة OpenChatKit ، تلقينا مئات الآلاف من إرشادات المستخدم الطبيعية عالية الجودة، والتي سيتم استخدامها لإصدار إصدارات مضبوطة بالتعليمات من نماذج RedPajama.

تاريخ الإضافة: 2023-04-24 تعليق: 0 عدد المشاهدات :300
1      0
التعليقات

إستطلاع

هل سينجح العالم في احتواء فيروس كورونا ؟
 نعم
68%
 لا
21%
 لا أعرف
12%
      المزيد
خدمات