منصة الرسائل والاطاريح: طريقه نمذجه لمعالجه مشاكل التنبؤ في قواعد بيانات المجال الصحي الصغيره

الخلاصة

مجموعة البيانات الصغيرة هي مجموعة بيانات تحتوي على عدد قليل من العينات. يمكن أن تشكل مجموعات البيانات الصغيرة مجموعة متنوعة من التحديات عندما يتعلق الأمر ببناء النماذج التنبؤية. يتطلب النجاح في بناء نماذج تنبؤية على مجموعات بيانات صغيرة مزيجًا من المعرفة بالمجال والأساليب الإحصائية وتقنيات التعلم الآلي. ستركز هذه الرسالة على إنشاء نموذج تنبؤ لمجموعات البيانات الصغيرة باستخدام طرق التصنيف التقليدية مثل Logistic Regression، Decision Tree، Naive Bayes، و .KNN تتمتع هذه الطرق بدرجة عالية جدًا من دقة التنبؤ بالتصنيف. قد يستخدم الباحثون نماذج مختلفة مع بذل جهد معين لزيادة دقة التنبؤ بالتصنيف مع تزايد شعبية أساليب التعلم الآلي وإمكانية الوصول إليها. للسماح بالتدريب المناسب واختبار النماذج التي تم إنشاؤها باستخدام تقنيات التعلم الآلي، كثيرًا ما تكون البيانات مقيدة بمجموعات أصغر من الملاحظات عما هو مطلوب عادةً. أحد الأساليب لتحسين مجموعة البيانات الصغيرة هو توسيعها باستخدام تقنية الإفراط في أخذ العينات للأقلية الاصطناعية. (SMOTE) يتم إجراء قياس إحصائي لمجموعات البيانات الأصلية والممتدة للإشارة إلى تشابهها. هناك طريقة أخرى تتمثل في التحقق مما إذا كانت مجموعة البيانات متوازنة أم لا. تعد موازنة مجموعة البيانات غير المتوازنة أمرًا ضروريًا قبل تنفيذ أي أداة للتنبؤ بالتعلم الآلي. في هذه الرسالة يتم استخدام ثلاث مجموعات بيانات. تم استخدام أربع خوارزميات للتعلم الآلي التنبؤي (Logistic Regression، Decision Tree، Naive Bayes، وKNN). يتم إنشاء مصفوفات الارتباك لهذه البيانات قبل وبعد الامتدادات. يتم حساب الدقة والدقة والاستدعاء وF-Score لكل مجموعة بيانات صغيرة أصلية ومجموعات البيانات الموسعة. كمثال؛ تُظهر نتائج مجموعة البيانات الصغيرة الخاصة بالمرض أن دقة Logistic Regression تبلغ 85%، وNaïve Baise 83%، و Decision Tree 69%، وKNN 64%. بعد التمديد، تبلغ نتائج الدقة Logistic Regression 91%، و Naïve Baise 91%، و Decision Tree 88%، و KNN 94%.