منصة الرسائل والاطاريح: تلخيص استخلاصي للموضوع بناءً على تحسين تجميع الجمل المتسلسلة المعجمية والشبكة العصبية

الخلاصة

النمو المتزايد في حجم البيانات الرقمية للوثائق أدى إلى صعوبة الوصول إلى المعلومات المهمة. الحل هو استخدام أنظمة تلخيص آلية تهدف إلى استخراج المعلومات المهمة في وقت قصير. عادة ما يكون عمل هذه الأنظمة هو استخراج ملخص واحد من مستند واحد أو مستندات متعددة . تقدم هذه الأطروحة عدة اتجاهات. الأول هو اقتراح خوارزمية جديدة صاغت اسم خوارزمية تطوير المجموعات ) DCA( لجمع البيانات غير المسماة ووضعها في مجموعات مناسبة. والثاني هو إنشاء سلسلة معجمية بناءً على جمل دلالية متشابهة أو عدد مشابه من الكلمات بين الجمل التي صاغ اسمها معجم سلسلة الجمل ) LCS( ، والتي تختلف عن سلسلة الكلمات المعجمية التقليدية ) LCW( التي تعمل على أساس الكلمات. والثالث اقتراح مجموعة من الميزات لاستخراج جمل مهمة وسهلة الفهم. الرابع هو بناء شبكة عصبية متعددة الطبقات ) BMPNN( للعثور على درج ة الجملة. الخامس هو استخدام طريقة عشوائية ) ROS( ودورها الفعال في إعادة موازنة البيانات أثناء عملية التدريب في BMPNN. أخيرًا ، يتم حل مشكلة إعادة ترتيب الجمل في ملخص المرشح وفقًا لأهمية الجملة بالاعتماد على التاريخ بالإضافة إلى ثلاثة شروط تؤخذ في الاعتبار ل ضمان دقة عملية إعادة الترتيب. استخدم هذا العمل مجموعتين من البيانات ذات الأهمية في المقالات الإخبارية. مجموعة البيانات الأولى هي مؤتمر فهم المستندات ) DUC 2002( ، وقد تم إنشاء مجموعة البيانات الثانية يدويًا من الوثائق الإخبارية التي تم جمعها من قبلنا للتجار ب . أظهرت النتائج أن أداء خوارزمية DCA المقترحة قد تفوق عمومًا على خوارزمية التجميع الهرمي بعدد المجموعات المتولدة ، وأيضًا على خوارزمية K-mean من خلال نتائج التقييم الناتجة من مقياس Davies Bouldin Index (DBI). فيما يتعلق بتقييم ملخص المرشح. استخدمت هذه الر سالة ثلاثة ، Recall-Oriented Understudy for Gisting Evaluation (Rouge) مقاييس لمقاييس عائلة و 1-Rouge ، و 2-Rouge ، و Rouge-L لتقييم ملخص المرشح. أظهرت نتائج تقييم مقاييس 1-Rouge و 2-Rouge و Rouge-L أن ملخص المرشح قريب جدًا من الملخص الذهبي من حيث مطابقة ا لجمل ، وقد حقق نتائج واعدة. متوسط الدقة لمقاييس rouge أعلاه في جميع الموضوعات في مجموعة بيانات DUC 2002 هو ) 0.81 و 0.75 و 0.81( على التوالي عندما يكون ملخص الكلمة المرجعية 200 كلمة ؛ ) 0.76 و 0.69 و 0.76( على التوالي عندما يكون ملخص الكلمة المرجعية 400 كل مة ؛ و ) 0.78 و 0.72 و 0.78( على التوالي عندما يكون متوسط ملخص الكلمات المرجعية بين 200 و 400 كلمة. في حين أن النتائج F- لهذه المقاييس أعلاه في مجموعة البيانات الثانية لثلاثة مواضيع هي )} 0.76،0.64 و 0.76( و ) 0.69،0.62 و 0.69( و ) 0.96،0.92،0.96({ على التوا لي عند الكلمة المرجعية الملخص هو ) 390114 ، 518( كلمة على التوالي