جامعة بابل
المجلات
الكليات
المراكز
الحوكمة الالكترونية
English
جامعة بابل
الكليات
المراكز
المجلات
الحوكمة الالكترونية
English
جامعة بابل
University of Babylon
نظام الرسائل والاطاريح الجامعية/ المكتبة المركزية
الرئيسية
تصفح الاحدث
دليل الايداع
محرك البحث
أدارة الايداع
دخول طلاب الدراسات
دخول موظفي التدقيق
ملف الرسالة/الاطروحة كامل (PDF)
مشاهدة
ملف الخلاصة عربي/ انكليزي (PDF)
لايوجد ملف
ملفات اخرى (PDF)
لايوجد ملف
العنوان باللغة العربية
منصة الرسائل والاطاريح: عنقدة الوثائق العربية بأستخدام LDA2Vec لنمذجة المواضيع - جامعة بابل
العنوان باللغة الانكليزية
Arabic Documents Clustering Using LDA2Vec for Topics Modeling
اسم الطالب باللغتين
دعاء وهاب ابراهيم هدوان
-
Doaa Wahhab Ibrahim Hadwan
اسم المشرف باللغتين
د سرى زكي ناجي علوان
--
Dr. Sura Zaki Naji Alwan
الخلاصة
بسبب الزيادة الهائلة في عدد الوثائق النصية العربية المتاحة على الإنترنت وفي قواعد البيانات ، يواجه الباحثون تحديًا كبيرًا في إيجاد طرق أفضل للتعامل مع كمية كبيرة من البيانات. لذلك ، أصبح من الضروري تطوير تقنيات أو أدوات فعالة للمساعدة في اكتشاف وتحليل المعلومات في الوثائق العربية. يُعد تجميع الوثائق باللغة العربية جانبًا مهمًا من جوانب توفير التنقل التخميني وتقنيات التصفح من خلال تنظيم كميات هائلة من البيانات في عدد صغير من المجموعات المحددة. في هذه الأطروحة ، تم تصميم نهج يستخدم نمذجة الموضوع كتقنية لعنقدة الوثائق العربية. تم استخدام خوارزمية النمذجة الموضوعية التي تم تطويرها مؤخرًا ، LDA2Vec في هذا النهج. LDA2Vec هي خوارزمية هجينة قدمها كريستوفر مودي في عام 2016 ، والتي تنفذ كل من الكلمات والموضوعات في إطار عمل واحد. يجعل LDA2Vec كميات كبيرة من النصوص ذات قيمة للأشخاص (بدلاً من الأجهزة) مع تسهيل تعديل النموذج. نتائج LDA2Vec عبارة عن مجموعة من متجهات وزن المستندات المتناثرة ، بالإضافة إلى متجهات الموضوع التي يسهل تفسيرها. يتكون النموذج من عدة مراحل وهي جمع الوثائق النصية ، المعالجة المسبقة للنصوص، وتمثيل النصوص ، ومرحلة التدريب باستخدام خوارزمية LDA2Vec ، ومرحلة الاختبار ، وتقييم النموذج. تم اختبار النموذج المطور باستخدام مجموعة بيانات إخبارية عربية مستخدمة في دراسات سابقة مماثلة. أظهرت النتائج أن نموذج LDA2Vec متفوق من حيث جودة العنقدة للوثائق النصية العربية وفقًا لمقاييس خارجية مثل النقاء ومقياس F والدقة وغيرها من المقاييس. يتضح في هذه الأطروحة أن نقاء النموذج المطور هو 0.88 مقارنة بـ 0.75 لـ Latent Dirichlet Allocation (LDA) ، وهي أحد أكثر تقنيات النمذجة الموضوعية استخدامًا ، وهذه النتائج أعلى مقارنة بدراسة حديثة مماثلة.
الفئة
المجموعة الهندسية
الاختصاص باللغة العربية
الاختصاص باللغة الانكليزية
السنة الدراسية
2022
لغة الرسالة/الاطروحة
اللغة الانكليزية
الشهادة
ماجستير
رابط موقع (doi)
Open access
نعم