صورة غلاف الرسالة/الاطروحة غير متوفرة



العنوان باللغة العربية
منصة الرسائل والاطاريح: تحليل البيانات باستخدام Minhash و التعليم الالي في بيئة Spark A - جامعة بابل
العنوان باللغة الانكليزية
DATA ANALYSIS USING MINHASH AND MACHINE LEARNING IN APACHE SPARK FRAMEWORK
اسم الطالب باللغتين
وفاء شاكر محمد حسن - Wafaa Shaker Mohammed Hassan
اسم المشرف باللغتين
أ. د رفاه محمد كاظم--Prof. Dr. Rafah Mohammed Kadhem - Assist. Prof. Dr. Mehdi Ebady Manaa Mehdi
الخلاصة
تلعب وسائل التواصل الاجتماعي دو ًرا أساسيًا في توليد حجم كبير من البيانات المنظمة وشبه المهيكلة وغير المهيكلة. تعتبر أداة تسويق قوية ورؤية تجارية. ينطوي التحدي الرئيسي الذي يواجه هذه البيانات على الحاجة إلى بناء نموذج قوي باستخدام تقنيات فعالة لاستخراج معرفة جديدة واتخاذ القرار الصحيح في وقت أقل ، خاصة في البيانات الطبية. تحليل المشاعر هو أحد أساليب تحليل البيانات الموسعة المستخدمة لاستخراج الآراء العامة لبيانات اجتماعية كبيرة والتي عادة ما تشمل جمل قصيرة ، بشكل عام ، لم يتم إنشاؤها باستخدام قواعد نحوية مناسبة. تهدف هذه الدراسة إلى إجراء تصنيف المشاعر على التغريدات بطريقة فعالة وفي الوقت المناسب باستخدام نموذج هجين من Min-hashوالتعلم الآلي للحصول على نتائج دقيقة للغاية ، وللتنفيذ المتوازي باستخدام إطار عمل برمجة .Apache Spark لإجراء تحليل المشاعر ، استخدمنا مجموعتي بيانات ، تغريدة COVID-19مقدمة من منفذ بيانات IEEEومجموعات بيانات لقاح COVID-19التي تتضمن ثلاثة حقول – ، tweet Idو، label و tweetنفسها. يتكون نظام تحليل المشاعر المقترح من أربع خطوات: جمع البيانات ، وتنقية البيانات والمعالجة المسبقة ، منهاش وتصنيف المشاعر. يتيح النظام أداء عالي المستوى لتصنيف المشاعر مع الاستفادة من الجمع بين Minhashوالمصنف القائم على التعلم. تتم مقارنة أداء Minhashمع التجزئة الحساسة للمنطقة ) (LSHبأداء Minhashمع كل من الانحدار اللوجستي ) ، (LRوالغابة العشوائية ) ، (RFو Naive ، (Bayes (NBوآلة المتجهات الداعمة ) (SVMعلى التوازي و بطريقة موزعة. تُستخدم معلمات الأداء مثل الوقت المستغرق والدقة التي تم الحصول عليها من Confusion Matrixلتصنيف التغريدات إلى إيجابية وسلبية ومحايدة. تم تطبيق النتائج التي تم الحصول عليها في التحليل المقارن لتحليل سلوك المصنفات في مجموعة ) ، Amazon Web Services (AWSومجموعة spark localوفي النظام التقليدي. تشير النتائج إلى أن النماذج في بيئة Sparkكانت فعالة للغاية في معالجة البيانات .تظهر النتائج التجريبية أن LRو RFيتفوقان على مصنفات SVMو . N
الفئة
المجموعة الطبية
الاختصاص باللغة العربية
الاختصاص باللغة الانكليزية
السنة الدراسية
2021
لغة الرسالة/الاطروحة
اللغة الانكليزية
الشهادة
دكتوراه
رابط موقع (doi)
Open access
نعم