جامعة بابل
المجلات
الكليات
المراكز
الحوكمة الالكترونية
English
جامعة بابل
الكليات
المراكز
المجلات
الحوكمة الالكترونية
English
جامعة بابل
University of Babylon
نظام الرسائل والاطاريح الجامعية/ المكتبة المركزية
الرئيسية
تصفح الاحدث
دليل الايداع
محرك البحث
أدارة الايداع
دخول طلاب الدراسات
دخول موظفي التدقيق
ملف الرسالة/الاطروحة كامل (PDF)
مشاهدة
ملف الخلاصة عربي/ انكليزي (PDF)
لايوجد ملف
ملفات اخرى (PDF)
لايوجد ملف
العنوان باللغة العربية
منصة الرسائل والاطاريح: توظيف تقنيات مختلفة لنظام التعرف على المتكلم بالاعتماد على طريقة التعلم العميق - جامعة بابل
العنوان باللغة الانكليزية
Employing Different Techniques for Speaker Recognition System Based on Deep Learning Approach
اسم الطالب باللغتين
هدى وصفي حسون
-
Huda Wasfi Hassoon
اسم المشرف باللغتين
أحمد قاسم
--
Ahmed Q. Aldhahab
الخلاصة
يشير التعرف على المتحدث إلى العملية المعرفية لتحديد هوية المتحدث من خلال تحليل واستخراج بعض الميزات المميزة المضمنة في إشارة الكلام. يمكن تقسيم تصنيف التعرف على المتحدث إلى فئتين رئيسيتين: التحديد والتحقق. يشير تعريف المتحدث إلى العملية الحسابية للتأكد من هوية المتحدث المسجل الذي أنتج خطابًا معينًا. في المقابل، يشير التحقق من المتحدث إلى صحة تأكيد هوية المتحدث، مما يؤدي إما إلى القبول أو الرفض. تبحث هذه الأطروحة في موضوع أنظمة تعريف المتحدث، مع التركيز بشكل خاص على المنهجيات المختلفة المستخدمة لاستخراج الميزات من إشارة الكلام. يحتوي النظام المقترح على ثلاث مراحل أساسية، تتكون من: المعالجة المسبقة، واستخراج الميزات، والتصنيف. خلال مرحلة المعالجة المسبقة، يتم استخدام العديد من التقنيات، مثل إزالة الضوضاء، وزيادة البيانات، وتجزئة المدة الزمنية إلى أطوال مختلفة ( ،3 ،2 ،1 ،0.5و 5ثواني)، وما إلى ذلك. يتم تطبيق هذه التقنيات لتنظيم البيانات بشكل مناسب والحصول على الميزات المميزة خلال مرحلة استخراج الميزة. في مرحلة استخراج المعالم، يتم استخدام طرق مختلفة، بما في ذلك استخدام معامل سبيسترال ذو التردد ميل ) ،(MFCCوتكامل معامل سبيسترال ذو التردد ميل مع تحليل المكونات الرئيسية ) ،(MFCC/PCAوتنفيذ التحويل المويجي المنفصل ثنائي الأبعاد (-2D ،)DWTمزيج من تحويل المويجات المنفصلة ثنائي الأبعاد مع تحليل المكونات الرئيسية (D-2 ) ،DWT/PCAوتكامل معامل سبيسترال ذو التردد الميل مع تحويل المويجات المنفصلة ثنائي الأبعاد ) ،(MFCC/2D-DWTوفي النهاية اعتماد التحويل المنفصل متعدد المويجات ثنائي الأبعاد ) .(2D-DMWTوأخيرا، يتم تغذية الميزات المستخرجة إلى المرحلة الثالثة، والتي تستخدم خوارزمية التعلم العميق التي تعتمد على الشبكة العصبية التلافيفة ) (CNNوتستخدم لأغراض التصنيف. في هذه الأطروحة، يتم استخدام أربع قواعد بيانات مختلفة لتقييم الأساليب المقترحة؛ وهي ،SALU-ACو ،ELSDSRو ،RAVDESSو .TIMITتحتوي قواعد البيانات هذه على اختلافات مختلفة في الكلام، مثل العمر والجنس وعدد المتحدثين وما إلى ذلك. أظهر النظام المقترح أدا ًء متمي ًزا، حيث حقق أعلى معدلات دقة تبلغ %99.82و%99.22 لقاعدتي بيانات ELSDSRو ،SALU-ACعلى التوالي، خلال مدة زمنية قدرها 5ثوا ٍن بنا ًء على نهج ) .)MFCC/2D-DWTحققت قاعدة بيانات RAVDESSدقة تصنيف تصل إلى %97.96 خلال مدة 3على أساس طريقة ٍن ثوا ) .)2D-DMWTأظهرت قاعدة بيانات TIMITأعلى دقة بلغت %96.02عند استخدام مدة 2ثانية بنا ًء على طريقة ) .)MFCC/2D-DWTيؤثر طولعينات الكلام المستخدمة في أنظمة التعرف على المتحدث بشكل كبير على الأداء العام للنظام. عادة، يمكن أن يؤدي استخدام العبارات الأطول إلى نقل قدر أكبر من المعلومات وتقليل التباين في صوت المتحدث. يمكن لهذه العوامل أن تعزز دقة ومتانة نظام التعرف على السماعات. حققت الدراسة التي أجريت في هذه الأطروحة أهداف تحقيق نتائج ناجحة وتقليل أبعاد البيانات، وبالتالي التخفيف من تعقيد النظام. النتائج التي حققها النظام المقترح تفوق تلك النتائج التي تمت مناقشتها في الأعمال السابقة اعتمادا على نفس قواعد البيانات
الفئة
المجموعة الطبية
الاختصاص باللغة العربية
الاختصاص باللغة الانكليزية
السنة الدراسية
2023
لغة الرسالة/الاطروحة
اللغة الانكليزية
الشهادة
ماجستير
رابط موقع (doi)
Open access
نعم