منصة الرسائل والاطاريح: التنبؤ بالاخبار المزيفة بأستخدام نماذج التعلم الالي المطورة

الخلاصة

شهد العالم في الآونة الأخيرة ما يسمى بعصر وسائل التواصل الاجتماعي ، حيث يوجد اعتماد كامل على هذه المواقع لمتابعة الأحداث والأنشطة. من ناحية أخرى ، تتبع معظم وكالات الأنباء وصايا مؤسسيها أو أصحابها ، مما يجعل الناس يشككون في مصداقية أي مقال اخباري. تكمن المشكلة في أن الأخبار المزيفة تركز دائماً على الموضوعات الهامة ويتم إصدارها في الوقت المناسب ، لذا فهي تنتشر بسرعة وتأخذ صدى واسعاً جداً. على هذا النحو ، ساهم مجتمع البحث في إجراء العديد من الدراسات للحد من هذه الظاهرة. على الرغم من إجراء العديد من الدراسات للكشف عن الأخبار المزيفة باللغة الإنجليزية ، إلا أن تحديد المعلومات المضللة باللغة العربية لا يزال غير مطور. تهدف هذه الرسالة إلى بناء نماذج تعلم آلي متطورة للكشف عن الأخبار المزيفة باللغتين العربية والإنجليزية. تم تحسين تنبؤات الأخبار المزيفة من خلال ثلاث نماذج مطورة: نموذج التعلم الآلي المطور (DMLM) ، والنموذج العميق الهجين ثنائي الاتجاه القائم على الانتباه (ABHDM) ، ونموذج التعلم العميق الجمعي (EDLM). النموذج الضبابي FM يتم استخدام لتحديد الميزات المستندة إلى المستخدم ذات الصلة. في البداية ، يتم تقييم هذه الميزات من خلال طريقتين مقترحتين: متوسط الانخفاض في مؤشرGini (MDGI) وأهمية السمة المستندة على الاسقاط (DFI). تم تقييم الميزات المستندة إلى المستخدم للمرة الثالثة باستخدام طريقة الارتباط. ثم يتم تغذية FM بمخرجات هذه الطرق لتحديد الميزات ذات الصلة. أما بالنسبة لـ DMLM ، فقد تم تحسين مصنف الغابة العشوائية من خلال التركيز على أفضل الميزات المستندة إلى المستخدم في بناء الأشجار بدلاً من الاختيار العشوائي. هناك طريقتان شائعتان لمعالجة النص هما الذاكرة ثنائية الاتجاه طويلة المدى (Bi-LSTM) والوحدة المتكررة ذات البوابات ثنائية الاتجاه (Bi-GRU). على الرغم من شعبية هذه الشبكات في التعامل مع التسلسلات التعسفية بكفاءة ، إلا أنها تعامل الميزات المستخرجة من النص بنفس الأهمية. على هذا النحو ، تم اقتراح ABHDM في هذه الاطروحة لمعالجة هذه المشكلة. في هذا النموذج ، يتم تطبيق شبكة عصبية تلافيفية (CNN) لتقليل أبعاد مجموعة البيانات. ثم يتم استخدام طبقتين مستقلتين Bi-LSTM و Bi-GRU. الفكرة وراء التنفيذ المتوازي لهذه الطبقات هي معالجة النصوص القصيرة والتعسفية في نفس الوقت. يتم تطبيق نموذج الانتباه على مخرجات هذه الطبقات لتحديد الكلمات المفيدة الاكثر فائدة. أخيرًا ، يتم تطبيق منظور متعدد الطبقات (MLP) لتصنيف أخبار المقالة على أنها مزيفة أو غير مزيفة. من ناحية أخرى ، استخدمت EDLM كل من Bi-LSTM و Bi-GRU و CNN لتحديد مصداقية أو عدم مصداقية أي مقال إخباري. تم بناء هذا النموذج بشكل مشابه لنهج المجموعات المستخدم بشكل شائع في التعلم الآلي. لذلك ، فإن القرار النهائي في تصنيف المقال الإخباري يُتخذ بناءً على آراء جميع هذه الشبكات. أجريت التجارب على خمس مجموعات بيانات: ِArabic Twitter Dataset ، Sentimental LIAR Dataset ، Dataset AraNews ، AFND ، Fake-or-Real Dataset. تم استخدام الدقة كمقياس لجودة نماذجنا المقترحة ، حيث وصلت دقة DMLM إلى 0.886 و 0.751 لمجموعة بيانات Twitter ومجموعة بيانات LAIR Sentimental على التوالي ، بينما بلغت دقة (ABHDM) 0.8614 و 0.9447 و 0.9944 لمجموعة بيانات AFND و AraNews و Fake-or-Real على التوالي. نتائج التنبؤ الخاصة بـ EDLM اقل بقليل من نتائج ال ABHDM من حيث مقاييس الاداء. علاوة على ذلك ، فإن نتائج نماذجنا المقترحة أفضل مقارنة بالدراسات السابقة التي استخدمت مجموعات البيانات هذه.