منصة الرسائل والاطاريح: تحويل هيئة الإنسان باستخدام شبكات توليدية تخاصمية متعددة المستويات للانتباه

الخلاصة

تحويل هيئة الإنسان هو عملية نقل مظهر الصورة المصدر إلى وضعية الصورة الوجهة. يحتوي هذا الموضوع على مجموعة واسعة من التطبيقات، بما في ذلك إنشاء الفيديو والرسوم المتحركة القائمة على الصور وزيادة البيانات لتدريب أنظمة تقدير الوضع البشري وإعادة تعريف الشخص ونماذج التحليل البشري. باستخدام صورة واحدة ثنائية الأبعاد لشخص بشري، كانت مهمة صعبة في Computer Vision لإنتاج صور واقعية بناءً على الوضع فقط. يمكن لمفهوم نقل الوضع البشري أن يساعد في إنشاء صور متعددة الوضعيات لنفس الفرد. يحاول نقل وضع الإنسان، جنبًا إلى جنب مع Human Parsing، إنشاء صورة جديدة لشخص من صورة لهذا الشخص ووضع مستهدف. مع الاحتفاظ بمظهر الصورة الأصلية. تم استخدام Key-Points Human Parsing معًا لإنشاء الصورة المستهدفة. يتكون النظام المقترح من أربع مراحل. المرحلة الأولى هي إعداد مجموعة البيانات التي تتضمن استخراج الميزات المطلوبة وتخزينها. المرحلة الثانية هي المعالجة المسبقة للصور والميزات المستخرجة من المرحلة الأولى لتكون مناسبة لدخول النموذج. المرحلة الثالثة هي توليد Parsing map تتماشى مع الوضع المستهدف لتمثيل شكل الملابس بواسطة Parsing Generator. تستخدم المرحلة الرابعة Image Generator لنقل الصورة المصدر لمحاذاة الوضع المستهدف بمساعدة Parsing الناتج من المرحلة الأولى. تتضمن شبكة الخصومة التوليدية متعددة المستويات المقترحة (MLA-GAN) مستويين من ال Attention، الأول هو على مستوى البكسل الذي يمثله Gated-Conv والثاني هو على مستوى القناة الذي يمثله Squeeze and Excitation Block. أيضًا، استخدمنا GP-WGAN بدلاً من ال Loss function الاصلية. مجموعة البيانات المستخدمة هي DeepFashion مع 48 ألف صورة تدريبية وصور اختبار 8 ألف. توضح النتائج التجريبية أن نموذجنا يحقق أداءً لائقًا مقارنةً بالأساليب الحديثة الأخرى مع عدد أقل من ال Parameters. لقد استخدمنا أربعة مقاييس (LPIPS، FID، IS، SSIM) أول مقياسين أكثر أهمية من باقي المقاييس لأنهما أقرب إلى الحكم البشري. لقد حققنا المركز الأول في FID والثالث في البقية. على الرغم من أننا لم ندرب نموذجنا بشكل كامل بسبب نقص قوة الحساب (computation power)، إلا أننا قمنا فقط بتدريب النموذج على 50 دورة بينما كان الهدف المقصود 150 دورة