جامعة بابل
المجلات
الكليات
المراكز
الحوكمة الالكترونية
English
جامعة بابل
الكليات
المراكز
المجلات
الحوكمة الالكترونية
English
جامعة بابل
University of Babylon
نظام الرسائل والاطاريح الجامعية/ المكتبة المركزية
الرئيسية
تصفح الاحدث
دليل الايداع
محرك البحث
أدارة الايداع
دخول طلاب الدراسات
دخول موظفي التدقيق
ملف الرسالة/الاطروحة كامل (PDF)
مشاهدة
ملف الخلاصة عربي/ انكليزي (PDF)
لايوجد ملف
ملفات اخرى (PDF)
لايوجد ملف
العنوان باللغة العربية
منصة الرسائل والاطاريح: تحويل هيئة الإنسان باستخدام شبكات توليدية تخاصمية متعددة المستويات للانتباه - جامعة بابل
العنوان باللغة الانكليزية
Human Pose Transfer using Multi-Level Attention Adversarial Generative Networks
اسم الطالب باللغتين
محمـد باقـر حليم محمـد هلال
-
Mohammad Baqer Haleem Mohammad
اسم المشرف باللغتين
أ. د. اسـراء هـادي علـي
--
. Israa Hadi Ali
الخلاصة
تحويل هيئة الإنسان هو عملية نقل مظهر الصورة المصدر إلى وضعية الصورة الوجهة. يحتوي هذا الموضوع على مجموعة واسعة من التطبيقات، بما في ذلك إنشاء الفيديو والرسوم المتحركة القائمة على الصور وزيادة البيانات لتدريب أنظمة تقدير الوضع البشري وإعادة تعريف الشخص ونماذج التحليل البشري. باستخدام صورة واحدة ثنائية الأبعاد لشخص بشري، كانت مهمة صعبة في Computer Vision لإنتاج صور واقعية بناءً على الوضع فقط. يمكن لمفهوم نقل الوضع البشري أن يساعد في إنشاء صور متعددة الوضعيات لنفس الفرد. يحاول نقل وضع الإنسان، جنبًا إلى جنب مع Human Parsing، إنشاء صورة جديدة لشخص من صورة لهذا الشخص ووضع مستهدف. مع الاحتفاظ بمظهر الصورة الأصلية. تم استخدام Key-Points Human Parsing معًا لإنشاء الصورة المستهدفة. يتكون النظام المقترح من أربع مراحل. المرحلة الأولى هي إعداد مجموعة البيانات التي تتضمن استخراج الميزات المطلوبة وتخزينها. المرحلة الثانية هي المعالجة المسبقة للصور والميزات المستخرجة من المرحلة الأولى لتكون مناسبة لدخول النموذج. المرحلة الثالثة هي توليد Parsing map تتماشى مع الوضع المستهدف لتمثيل شكل الملابس بواسطة Parsing Generator. تستخدم المرحلة الرابعة Image Generator لنقل الصورة المصدر لمحاذاة الوضع المستهدف بمساعدة Parsing الناتج من المرحلة الأولى. تتضمن شبكة الخصومة التوليدية متعددة المستويات المقترحة (MLA-GAN) مستويين من ال Attention، الأول هو على مستوى البكسل الذي يمثله Gated-Conv والثاني هو على مستوى القناة الذي يمثله Squeeze and Excitation Block. أيضًا، استخدمنا GP-WGAN بدلاً من ال Loss function الاصلية. مجموعة البيانات المستخدمة هي DeepFashion مع 48 ألف صورة تدريبية وصور اختبار 8 ألف. توضح النتائج التجريبية أن نموذجنا يحقق أداءً لائقًا مقارنةً بالأساليب الحديثة الأخرى مع عدد أقل من ال Parameters. لقد استخدمنا أربعة مقاييس (LPIPS، FID، IS، SSIM) أول مقياسين أكثر أهمية من باقي المقاييس لأنهما أقرب إلى الحكم البشري. لقد حققنا المركز الأول في FID والثالث في البقية. على الرغم من أننا لم ندرب نموذجنا بشكل كامل بسبب نقص قوة الحساب (computation power)، إلا أننا قمنا فقط بتدريب النموذج على 50 دورة بينما كان الهدف المقصود 150 دورة
الفئة
المجموعة الطبية
الاختصاص باللغة العربية
الاختصاص باللغة الانكليزية
السنة الدراسية
2023
لغة الرسالة/الاطروحة
اللغة الانكليزية
الشهادة
ماجستير
رابط موقع (doi)
Open access
نعم