منصة الرسائل والاطاريح: التعليق التوضيحي للصور المستند على الدلالة باستخدام التعلم العميق مع آلية الانتباه المرئي

الخلاصة

التعليق التوضحي للصور هو تحويل صورة مدخلة إلى وصف نصي (تعليق)، مما يسهم في سد الفجوة بين الرؤية واللغة بطريقة إبداعية. يمكن توثيق مجموعات متنوعة من البيانات يدويًا بتسميات مناسبة لكل صورة، ومع ذلك، يمكن أن تصبح مثل هذه العمليات مرهقة بسرعة بالنسبة لحجم المجموعة البيانية أو عدد المجموعات البيانية. لذلك، يوجد حاجة ماسة لتطوير نظام توليد تلقائي لتسمية الصور بشكل كاف. الهدف الرئيسي لهذه المهمة هو إنشاء وصف شبيه بوصف الإنسان للمحتوى والسياق (الدلالي) للصورة، والذي يشمل في كثير من الأحيان تفاصيل حول الكائنات والأفعال والعلاقات داخل المشهد. تقترح هذه الرسالة نظامًا للتعليق على الصور بناءً على الدلالة لتعظيم دقة توليد الوصف. يستخدم النظام معمارية (encoder-decoder) التي تعتمد على آلية الانتباه لتحفيز المراقبة الانتقائية لميزات الصورة المهمة من مجموعة من الميزات المتاحة. يتكون النظام من ثلاث مراحل رئيسية: المعالجة المسبقة، استخراج الميزات (التشفير)، وفك تشفير الميزات. في المرحلة الأولى، تخضع كل من الصورة والبيانات لعمليات معالجة مسبقة. في المرحلة الثانية، يتم استخراج نوعين من الميزات: الميزات العامة (deep visual features) المستخرجة من نموذج مدرب مسبقًا والميزات الخاصة (object features) المستخرجة من نموذج اكتشاف الكائنات المدرب مسبقًا ايضاً. لتحسين دقة النظام المقترح، تستغل هذه الرسالة نموذج اكتشاف الكائنات لحساب ميزة جديدة تسمى "Priority Factor" الذي يعظم تنشيط الكائنات الهامة دلاليًا في صورة معينة. وأخيرًا، يتم دمج هذه الميزات المتنوعة معًا في خطوة الدمج. على عكس الطرق السابقة، يحدث الدمج قبل تقليل الميزات، مما يؤدي إلى مصفوفة ميزات غير معالجة. المرحلة الثالثة هي شبكة عصبية عميقة تتألف من ثلاث كتل معالجة: التقليل، الانتباه، واللغة. خلال هذه المرحلة، يتم تمرير مجموعة الميزات المدخلة من خلال طبقات إضافية (FC layer، LSTM) للمعالجة المستندة إلى المتجهات لتعلم ارتباطات مفردات الميزات وبالتالي إنشاء نموذج مدرب.