منصة الرسائل والاطاريح: إكتشاف خطاب الكراهية في وسائل التواصل الاجتماعي بالاعتماد على نموذج روبرتا المكيف بالتعابير الرمزية

الخلاصة

أصبحت وسائل التواصل الاجتماعي جزءًا لا يتجزأ من الحياة اليومية للإنسان المعاصر، ورغم إيجابياتها العديدة إلا أنها كانت لها عدة سلبيات، منها تسهيل انتشار خطاب الكراهية بسبب سهولة استخدامها وسرعتها والخصوصية التي تمنحها للمستخدمين، ويعتبر انتشار خطاب الكراهية خطرًا على الأفراد والمجتمعات، ولذلك تم إجراء الكثير من الأبحاث في هذا المجال باستخدام العديد من استراتيجيات التعلم الآلي والتعلم العميق والتعلم الانتقالي، إلا أنها لا تزال تواجه العديد من التحديات. التحدي الأول هو أن معظم الأنظمة الحالية تعتمد فقط على النص في عملية الكشف. إن دمج عوامل أخرى في منشورات وسائل التواصل الاجتماعي أو التغريدات أو التعليقات يمكن أن يحدث فرقًا كبيرًا. تعد الرموز التعبيرية أحد الأعضاء النشطين في نصوص وسائل التواصل الاجتماعي. لها دور كبير في تحديد المشاعر وبالتالي الكراهية، ولكن لسوء الحظ، يتم تجاهلها أو التعامل معها باستخدام طرق بدائية. علاوة على ذلك، هناك تحدٍ آخر وهو ندرة البيانات. يعتمد اكتشاف خطاب الكراهية في المقام الأول على البيانات المصنفة ونظرًا لأن عملية التصنيف هذه مكلفة ومعقدة وبطيئة، فإننا نعاني من مشكلة البيانات المصنفة المحدودة المتاحة لتدريب نماذج التصنيف، وخاصة لخطاب الكراهية متعدد التصنيفات وخطاب الكراهية القائم على الرموز التعبيرية. أخيرًا، تعاني نماذج التعلم العميق والتعلم الانتقالي من خاصية عدم القدرة على التفسير. تعتبر بمثابة صناديق سوداء، بسبب بنيتها المعقدة وطبقاتها وعددها الهائل من المعلمات. للتعامل مع الفجوات المذكورة، تعمل هذه الدراسة على كل من جانب النموذج وجانب البيانات. فيما يتعلق بالنموذج، فقد عززت النسخة القائمة على BERT والتي تسمى RoBERTa لإضافة الرموز التعبيرية في قائمة المفردات الخاصة بها والقدرة على إنشاء تمثيلات متجهية للرموز التعبيرية وكذلك الكلمات. تم تحقيق هذا الهدف من خلال مزيد من التدريب المسبق لنموذج RoBERTa على بيانات كبيرة غير مصنفة غنية بالرموز التعبيرية، ثم ضبطها بدقة على بيانات مصنفة بخطاب الكراهية. لأغراض التصنيف، تمت إضافة طبقة خطية. تم تسمية الموديل الناتج ب EMOJI-RoBERTa. من جانب البيانات، يحاول هذا العمل الجمع بين تقنيات تكبيرحجم البيانات المختلفة المتاحة لزيادة حجم وجودة كل من مجموعات البيانات التدريبية الثنائية والمتعددة التصنيف والحصول على نسخة أكثر تنوعًا وتمثيلاً للبيانات. علاوة على ذلك، استخدمت أساليب استبدال بسيطة لإضافة رموز الايموجي التعبيرية الخاصة بالأشياء. أما الايموجي الخاص