في المشهد المتطور باستمرار للذكاء الاصطناعي، أشعل سباق الهيمنة إثارة وقلقًا داخل مجتمع الذكاء الاصطناعي. أثارت التطورات الحديثة في أدوات الذكاء الاصطناعي التوليدية مثل “شات جي بي تي” و “بارد” و “بينج آي أي” جدلاً بين عشاق الذكاء الاصطناعي والمتشككين على حد سواء. بينما يعجب المؤيدون بإمكانية الذكاء الاصطناعي تحقيق إنجازات رائعة، يُحذر المتشككين من أن الأدوات غير المُتحققة من أنهاقد تشكل مزيد من الضرر. لحسن الحظ، هناك حلاً يمكن أن يكون جسرًا لهذا الانقسام ويضمن مستقبلًا أفضل للذكاء الاصطناعي وهو التعلم المعزز.

التعلم المعزز

هو نوع من التعلم الآلي حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع البيئة. هدف الوكيل هو تعظيم المكافأة التراكمية . بمرور الوقت من خلال اتخاذ إجراءات تؤدي إلى نتائج إيجابية. إنه نهج شائع لتدريب الأنظمة المستقلة وعملاء الذكاء الاصطناعي لتعلم كيفية أداء المهام دون برمجة واضحة.

هذا المفهوم متساهل بشكل كبير مع العنصر البشري للذكاء الاصطناعي: من جمع البيانات إلى الاختبار وإعادة التدريب، يتأكد التعلم اصبح المعزز من أن الإنسان الذي يقف وراء الذكاء الاصطناعي سيساعد في إنشاء نماذج أخلاقية قوية للمضي قدمًا. من خلال نهج أكثر تركيزًا على الإنسان في التدريب، يمكن لممارسي الذكاء الاصطناعي أن يكونوا واثقين من أنهم يقودون السلوك الجيد ويقللون ن أخطار السلوك السيئ أو الضار في نماذج الذكاء الاصطناعي الخاصة بهم. الآن بعد أن أصبح لدينا فهم لما هو التعلم المعزز، يمكننادراسة حالات الاستخدام المختلفة حيث يمكن أن يكون لها تأثير حقيقي على عملية تدريب وتطوير الذكاء الاصطناعيمن أهم السيناريوهات التي تشير إلى متى يمكن أن يوفر التعلم المعزز فوائد كبيرة من خلال التدريب المستمر وصيانة روبوتات المحادثة، مثل أدوات “شات جي بي تي” و “بارد” و “بينج آي أي”. على سبيل المثال، عند التفاعل مع روبوت محادثة يعمل بالذكاء الاصطناعي، يتوقع معظم الناس (إن لم يكن جميعهم) أن المحادثة ستكون أصيلة قدر الإمكان. بعد كل شيء، توفر الأصالة تجربةمستخدم جيدةومع ذلك، ماذا سيحدث إذا بدأ تفاعل روبوت الدردشة في إرسال رسائل نصية غير مفهومة؟ من المحتمل أنه إذا كان الأمر كذلك، فلن ترغب في التفاعل مع هذه الخدمة مرة أخرى، والتوصية بأن يفعل زملاؤك وأصدقاؤك الشيء نفسه. مع وضع ذلك في الاعتبار، يجب على ممارسي الذكاء الاصطناعي أن يأخذوا على عاتقهم ضمان عدم حدوث هذه التجارب السيئة. تستفيد روبوتات المحادثة من التعلم المعزز، خاصةً مع تضمين حلقات ردود الفعل البشرية، حيث تساعد طرق التعلم هذه في تدريب النماذج على فهم المشاعر والإشارات والطلبات المختلفة لمساعدة الشركات على تقديم تجارب عالية الجودة، ويتم تشكيل النماذج من قبل الأشخاص الذين يقومون بتدريبهم. لذلك يجب أن يكون المدرب متنوعًا ثقافيًا وأخلاقيًا وجغرافيًا. تتضمن بعض مجالات التركيز الرئيسية وضعالأخلاق والمسؤولية والتنوع والشمول كأساس لدفع الابتكار والإلهام والثقة.

لماذا تستخدم نماذج اللغة الكبيرة مثل “شات جي بي تي” و “بارد” و “بينج آي أي” التعلم المعزز بدلا من التعلم الخاضع للإشراف للضبط النهائي مع النجاح الهائل للذكاء الاصطناعي التوليدي في الأشهر القليلة الماضية

يعد “شات جي بي تي ” الشهير الذي طورته شركة “أوبن آي أي” نموذجًا لمعالجة اللغة الطبيعية يسمح للمستخدمين بإنشاء نص ذي معنى تمامًا مثل البشر. ليس هذا فحسب، بل يمكنه الإجابة على الأسئلة، وتلخيص الفقرات الطويلة، وكتابة الرموز ورسائل البريد الإلكتروني، وما إلى ذلك. وقد أظهرت نماذج اللغة الأخرى أيضًا أداءً رائعًا في تقليد البشر. تستخدم نماذج اللغة الكبيرة التعلم المعزز للضبط الدقيق. يستخدم “الشات جي بي تي” التعلم المعزز من ردود الفعل البشرية لضبط النموذج عن طريق تقليل التحيزات ولكن لماذا لا يمكن استخدام هذه التسميات بشكل مباشر مع نهج التعلم الخاضع للإشراف؟ شارك “سيباستيان راشكا”، الباحث في الذكاء الاصطناعي والتعلم الآلي، بعض الأسباب في تغريدته حول سبب استخدام التعلم المعزز في الضبط الدقيق بدلاً من التعلم الخاضع للإشراف.

السبب الأول لعدم استخدام التعلم الخاضع للإشراف هو أنه يتوقع الرتب فقط. لا ينتج استجابات متماسكة. يتعلم النموذج فقط إعطاء درجات عالية للإجابات المشابهة لمجموعة التدريب، حتى لو لم تكن متماسكة. من ناحية أخرى، يتم تدريب التعلم المعزز من ردود فعل البشر على تقدير جودة الاستجابة المنتجة بدلاً من مجرد درجة التصنيف.

 يشارك “سيباستيان راشكا” فكرة إعادة صياغة المهمة كمشكلة تحسين  مقيدة باستخدام التعلم الخاضع للإشراف. تجمع وظيفة الخسارة بين فقد النص الناتج ومصطلح درجة المكافأة. سيؤدي هذا إلى جودة أفضل للاستجابة المتولدة والرتب. لكن هذا النهج يعمل فقط عندما يكون الهدف هو إنتاج أزواج من الأسئلة والأجوبة بشكل صحيح. لكن المكافآت التراكمية ضرورية أيضًا لتمكين المحادثات المتماسكة بين المستخدم و”الشات جي بي تي” والتي لا يمكن أن توفرها التعلم الخاضع للإشراف.

 السبب الثالث لعدم اختيار التعلم الخاضع للإشراف هو أنه يستخدم الانتروبيا المتقاطعة لتحسين خسارة مستوى الرمز المميز.

والانتروبيا المتقاطعة: هي مقياس للفرق بين توزيعين احتمالين على نفس مجموعة الأحداث. على الرغم من أنه على مستوى الرمز المميز لمقطع نصي، فإن تغيير الكلمات الفردية في الاستجابة قد يكون له تأثير ضئيل فقط على الخسارة الإجمالية، إلا أن المهمة المعقدة لإنشاء محادثات متماسكة يمكن أن يكون لها تغيير كامل في السياق إذا تم رفض الكلمة. وبالتالي، فإن الاعتماد على اللغة المصدر لا يمكن أن يكون كافياً، والتعلم المعزز من ردود الفعل البشري ضروري للنظر في سياق وتماسك المحادثة بأكملها.

 يمكن استخدام التعلم الخاضع للإشراف لتدريب النموذج، ولكن وجد أن التعلم المعزز من ردود فعل البشر يميل الى أداء أفضل من الناحية التجريبية، أظهرت ورقة بحثية صدرت عام  2022 بعنوان “تعلم التلخيص من ردود الفعل البشرية” أن أداء التعلم المعزز من ردود الفعل البشرية أفضل من التعلم الخاضع للإشراف والسبب هو أن التعلم المعزز من ردود فعل البشر تأخذ في الاعتبار المكافآت التراكمية المتماسكة التي يفشل التعلم الخاضع للإشراف في التقاطها بسبب وظيفة فقدان مستوى الرمز المميز. ولهذا من الأفضل الجمع بين التعلم الخاضع للإشراف والتعلم المعزز من ردود فعل البشر فالجمع بين الاثنين يحقق الاداة الأمثل حيث يتم أولاً ضبط النموذج باستخدام التعلم الخاضع للإشراف وفية يسمح للنموذج بتعلم البنية الاساسية ومحتوى المهمة بينما تسمح مرحلة التعلم المعزز من ردود الفعل البشري على تحسين استجابات النموذج لتحسين الدقة.

الخلاصة

مع تصاعد قدرات الذكاء الاصطناعي التوليدية، يظهر الطريق أمامه واعدًا وتحديًا في الوقت نفسه. يظهر التعلم المعزز كلاعب رئيسي في تنمية نظم الذكاء الاصطناعي المسؤولة والأخلاقية. من خلال التركيز على التدريب القائم على الإنسان، يمكن لممارسي الذكاء الاصطناعي أن يقودوا الجهد نحو السلوك الأخلاقي وتقليل المخاطر المحتملة. بعدما استكشفنا مفهوم التعلم المعزز وتطبيقاته المحتملة، يتضح أنه يمثل المفتاح لتشكيل تعايش متناغم بين الذكاء الاصطناعي والبشرية. في عالم تتراوح فيه الإمكانيات بلا حدود، يظل التعلم المعزز مصباحًا يضيء الطريق لإطلاق القدرات الكاملة لتطورات الذكاء الاصطناعي الثورية.

قم بزيارة موقعنا للحصول على مدونات أكثر إثارة حول أحدث التقنيات الذكية ولتتعرف على المزيد عن حلولنا الرقمية