منصة الرسائل والاطاريح: توظيف تقنيات مختلفة لنظام التعرف على المتكلم بالاعتماد على طريقة التعلم العميق

الخلاصة

يشير التعرف على المتحدث إلى العملية المعرفية لتحديد هوية المتحدث من خلال تحليل واستخراج بعض الميزات المميزة المضمنة في إشارة الكلام. يمكن تقسيم تصنيف التعرف على المتحدث إلى فئتين رئيسيتين: التحديد والتحقق. يشير تعريف المتحدث إلى العملية الحسابية للتأكد من هوية المتحدث المسجل الذي أنتج خطابًا معينًا. في المقابل، يشير التحقق من المتحدث إلى صحة تأكيد هوية المتحدث، مما يؤدي إما إلى القبول أو الرفض. تبحث هذه الأطروحة في موضوع أنظمة تعريف المتحدث، مع التركيز بشكل خاص على المنهجيات المختلفة المستخدمة لاستخراج الميزات من إشارة الكلام. يحتوي النظام المقترح على ثلاث مراحل أساسية، تتكون من: المعالجة المسبقة، واستخراج الميزات، والتصنيف. خلال مرحلة المعالجة المسبقة، يتم استخدام العديد من التقنيات، مثل إزالة الضوضاء، وزيادة البيانات، وتجزئة المدة الزمنية إلى أطوال مختلفة ( ،3 ،2 ،1 ،0.5و 5ثواني)، وما إلى ذلك. يتم تطبيق هذه التقنيات لتنظيم البيانات بشكل مناسب والحصول على الميزات المميزة خلال مرحلة استخراج الميزة. في مرحلة استخراج المعالم، يتم استخدام طرق مختلفة، بما في ذلك استخدام معامل سبيسترال ذو التردد ميل ) ،(MFCCوتكامل معامل سبيسترال ذو التردد ميل مع تحليل المكونات الرئيسية ) ،(MFCC/PCAوتنفيذ التحويل المويجي المنفصل ثنائي الأبعاد (-2D ،)DWTمزيج من تحويل المويجات المنفصلة ثنائي الأبعاد مع تحليل المكونات الرئيسية (D-2 ) ،DWT/PCAوتكامل معامل سبيسترال ذو التردد الميل مع تحويل المويجات المنفصلة ثنائي الأبعاد ) ،(MFCC/2D-DWTوفي النهاية اعتماد التحويل المنفصل متعدد المويجات ثنائي الأبعاد ) .(2D-DMWTوأخيرا، يتم تغذية الميزات المستخرجة إلى المرحلة الثالثة، والتي تستخدم خوارزمية التعلم العميق التي تعتمد على الشبكة العصبية التلافيفة ) (CNNوتستخدم لأغراض التصنيف. في هذه الأطروحة، يتم استخدام أربع قواعد بيانات مختلفة لتقييم الأساليب المقترحة؛ وهي ،SALU-ACو ،ELSDSRو ،RAVDESSو .TIMITتحتوي قواعد البيانات هذه على اختلافات مختلفة في الكلام، مثل العمر والجنس وعدد المتحدثين وما إلى ذلك. أظهر النظام المقترح أدا ًء متمي ًزا، حيث حقق أعلى معدلات دقة تبلغ %99.82و%99.22 لقاعدتي بيانات ELSDSRو ،SALU-ACعلى التوالي، خلال مدة زمنية قدرها 5ثوا ٍن بنا ًء على نهج ) .)MFCC/2D-DWTحققت قاعدة بيانات RAVDESSدقة تصنيف تصل إلى %97.96 خلال مدة 3على أساس طريقة ٍن ثوا ) .)2D-DMWTأظهرت قاعدة بيانات TIMITأعلى دقة بلغت %96.02عند استخدام مدة 2ثانية بنا ًء على طريقة ) .)MFCC/2D-DWTيؤثر طولعينات الكلام المستخدمة في أنظمة التعرف على المتحدث بشكل كبير على الأداء العام للنظام. عادة، يمكن أن يؤدي استخدام العبارات الأطول إلى نقل قدر أكبر من المعلومات وتقليل التباين في صوت المتحدث. يمكن لهذه العوامل أن تعزز دقة ومتانة نظام التعرف على السماعات. حققت الدراسة التي أجريت في هذه الأطروحة أهداف تحقيق نتائج ناجحة وتقليل أبعاد البيانات، وبالتالي التخفيف من تعقيد النظام. النتائج التي حققها النظام المقترح تفوق تلك النتائج التي تمت مناقشتها في الأعمال السابقة اعتمادا على نفس قواعد البيانات