منصة الرسائل والاطاريح: تصنيف خواص المتكلم بالاعتماد على SVM والشبكات العصبية

الخلاصة

مع التقدم السريع للتقنيات المختلفة، أصبح التنبؤ بالمعلومات المتعلقة بالجنس والعمر واللغة للمتكلم ضروري للعديد من التقنيات في الحياة اليومية مثل التسويق وتحديد المشتبه بهم في القضايا الجنائية. علاوة على ذلك، فإن التعرف على الجنس والعمر يساعد الأنظمة التي يتم تشغيلها باستخدام الأمر الصوتي على التكيف مع المستخدم وتوفير تفاعلا أكثر بين الإنسان والآلة. تعد عملية تصنيف المتكلمين حسب جنسهم وعمرهم ولغتهم مهمة صعبة في معالجة الكلام بسبب عجز التقنيات الحالية لاستخراج المميزات المهمة واستخدام نماذج التصنيف المناسب. لذلك تعد هذه القضية هدفاً للعديد من الباحثين خصوصا في التطبيقات الأمنية. إضافة إلى ذلك، هناك مشكلة أخرى قد تواجه عملية تصنيف خواص المتكلم نتيجة لتداخل الإشارات الصوتية الصادرة عن أكثر من شخص، حيث يؤثر هذا التداخل سلباً على عملية التصنيف. للتعامل مع مثل هذه المشاكل، هذه الأطروحة تهدف الى اقتراح نظام متعدد المهام قادر على تحديد جنس وعمر المتكلم ولغته. حيث تم في هذه الأطروحة التعامل مع الإشارات الصوتية المتداخلة ودراسة مدى تأثير هذا النوع من الإشارة على دقة عملية التصنيف، من خلال استخدام ثلاث طرق لفصل إشارات الممزوجة، والتي تشمل (الطريقة التقليدية (.)ICA based PSO, ICA based QPSO,)FastICA يشتمل النظام المقترح ثلاثة موديلات وهي تصنيف الجنس، التعرف على العمر، وتحديد اللغة. حيث تم بناء كل نموذج باستخدام تقنيات متعددة لاستخراج الميزات وطرق تصنيف مختلفة. تم تصميم موديل تصنيف الجنس لمعالجة مشكلة الإشارة الممزوجة عن طريق استخدام الميزات المناسبة والفعالة لتحديد جنس المتكلم وإيجاد المصنف المناسب من خلال تقسم الإشارة الصوتية الي إطارات واستخراج ثلاث Pitch, Mel-Frequency Cepstral Coefficients, Spectral مجموعات من الميزات من كل إطار ) .)Sub-Band Centroidsحيث يتم قياس سبع وظائف إحصائية وصفية لكل ميزة مستخرجة. بعد ذلك، تم استخدام تقنية AdaBoostلتحديد أهم الميزات وإزالة الميزات الضعيفة من كل مجموعة ثم ايجاد أفضل دمج للميزات وتحديد متجه الميزات الأكثر أهمية في فصل جنس المتكلم. أخي ًرا، تُستخدم هذه الميزات المهمة كمدخلات ل) (SVMلاكتشاف جنس المتكلم. بينما في النموذجين الثاني والثالث، يتم استخراج مجموعتين من الميزات من كل إطار ) (MFCC,SSCواستخدام الشبكة العصبية العميقة ()DNN كمصنف للتعرف على عمر المتكلم ولغته. تم استخدام مجموعتي بيانات الممثلة في TIMITو Common voiceلتقييم اداء النظام المقترح، حيث عززت النتائج التجريبية قوة الموديلات المقترحة. وقد أثبت موديل تحدد الجنس كفاءته من حيث الدقةووقت التنفيذ حيث كان معدل الدقة للموديل حوالي )% 99.86و% (99.62مع مجموعتي بيانات TIMIT و ،Common Voiceعلى التوالي، مع أصوات واضحة. بينما عند استخدام مجموعة البيانات تحتوي على اصوت واضح ومنفصلة، فقد وصل معدل الدقة إلى%) 99.52% ،98.37و% (99.69وفقا لطريقة الفصل المستخدمة ،PSO ،FastICAو ،QPSOعلى التوالي. وقد تفوق موديل تمييز العمر أي ً