منصة الرسائل والاطاريح: تنبؤ فيديو التزييف العميق القائم على تحليل سلوك الكائن باستخدام التعلم العميق

الخلاصة

التزييف العميق هو مصطلح يستخدم لوصف إنتاج الأفلام أو الأصوات أو الصور المصنعة أو المزيفة والتلاعب بها باستخدام أساليب الذكاء الاصطناعي .(AI) هو يستلزم استخدام مجموعات بيانات ضخمة من الوسائط الحقيقية لتعلم نماذج الذكاء الاصطناعي، وخاصة شبكات الخصومة التوليدية .(GANs) يمكن لهذه النماذج بعد ذلك إنتاج محتوى اصطناعي جديد يحاكي المحتوى الحقيقي ولكنه مزيف. هناك أنواع من التزييف العميق، بما في ذلك نقل تعابير الوجه، حيث يتم عرض تعبيرات وجه شخص ما على وجه شخص آخر في مقطع فيديو. فهو يتيح تغيير التعبيرات العاطفية للشخص، مما يجعله يظهر مشاعر غير تلك المسجلة. لانتحال شخصية شخص ما، يقوم لصوص الهوية بإنشاء أفلام تجعل هذا الشخص يبدو مختلفًا. تعتمد مشكلة الطرق التقليدية للكشف عن التزييف العميق على العناصر الموجودة في مقاطع الفيديو المزيفة. عندما تكون هناك مقاطع فيديو لا تحتوي على مؤثرات، يتم إنشاؤها بشكل قريب جدًا من مقاطع الفيديو الحقيقية، حيث أن الطرق التقليدية لا تعطي نتائج جيدة. الهدف من الأطروحة، الكشف عن التزييف العميق، يعتمد على سلوك الكائن من حيث تعبيرات الوجه في مقاطع الفيديو التي تم إنشاؤها بطريقة مثالية للتزييف. لكل شخص سلوكيات خاصة عند التحدث وتعابير الوجه مثل الحزن والغضب وغيرها. يمكن استغلال هذه الميزة للكشف عن التزييف العميق من خلال مقارنة سلوك الأشخاص باستخدام تعبيرات الوجه مثل وحدات حركة الوجه ووضعيات الوجه. يتكون الطريقة المقترحة من مرحلتين رئيسيتين. المرحلة الأولى هي استخراج الملامح من تعابير الوجه ووضعيات الوجه. نأخذ الإطارات كمدخلات من مقاطع الفيديو الحقيقية والمزيفة ونستخرج ميزاتها. وأهم السمات المستخرجة من تعابير الوجه هي وضعيات الوجه ووحدات الحركة. وكل وحدة عمل عبارة عن حركة محددة لعضلات الوجه، وهي من السمات المهمة في تمييز سلوك الجسم. يقوم نموذج JAA-Net المدرّب مسبقًا باستخراج وحدة الحركة، إذ يبلغ عدد وحدات الحركة التي يستخرجها اثنتي عشرة وحدة. يستخرج نموذج Hybrid Face Pose المُدرب مسبقًا الميزات الثلاثة لوضعية الوجه، وهي الانعراج، والميل، والتدحرج. تتنبأ المرحلة الثانية بمقاطع الفيديو الحقيقية والمزيفة باستخدام الميزات المجمعة من المرحلة الأولى ثم يتم إدخالها في نموذج التنبؤ. نموذج التنبؤ المستخدم هو BiLSTM، والذي تم تدريبه باستخدام الميزات. بعد التدريب، يستطيع النموذج التنبؤ بما إذا كانت مقاطع الفيديو حقيقية أم مزيفة. مجموعات البيانات المستخدمة في النظام المقترح هي مجموعة بيانات Barack Obama و ++Forensics . تحتوي مجموعة بيانات Barack Obama على مقاطع فيديو تعتبر فعالة وقريبة جدًا من الواقع. تم الاعتماد على مجموعة بيانات Barack Obama في عملية التدريب على نموذج التنبؤ. تم أيضًا استخدام مجموعة بيانات ++Forensics للتدريب ومقارنة النتائج التي تم الحصول عليها مع نتائج مجموعة بيانات Barack Obama. أثبت الطريقة المقترحة دقته العالية مقارنة بالطرق التقليدية، حيث بلغت دقة الطريقة المقترحة 99.403%.