التعلم العميقالمزيد من مقالات التعلم العميق......المزيد من مقالات الرؤية الحاسوبية.....مقالات التعلم العميقمقالات الرؤية الحاسوبية

9 تطبيقات للتعلم العميق في الرؤية الحاسوبية

اقرأ في هذا المقال
  • تصنيف الصور
  • تصنيف الصور مع التموضع
  • اكتشاف الكائن
  • تجزئة الكائن
  • نقل النمط
  • تلوين الصورة
  • إعادة بناء الصورة
  • دقة الصورة الفائقة
  • تركيب الصورة
  • تطبيقات أخرى

يتحول مجال الرؤية الحاسوبية  computer vision من الأساليب الإحصائية إلى أساليب الشبكة العصبية للتعلم العميق.

لا تزال هناك العديد من المشكلات الصعبة التي يجب حلها في الرؤية الحاسوبية. ومع ذلك، فإن طرق التعلم العميق تحقق نتائج متطورة في بعض المشكلات المحددة.

ليس فقط أداء نماذج التعلم العميق بشأن المشكلات المعيارية هو الأكثر إثارة للاهتمام؛ إنها حقيقة أن نموذجًا واحدًا يمكنه تعلم المعنى من الصور وأداء مهام الرؤية، مما يلغي الحاجة إلى خط أنابيب من الأساليب المتخصصة والمصنوعة يدويًا.

في هذا المنشور، سوف تكتشف تسع مهام مثيرة للاهتمام للرؤية الحاسوبية حيث تحقق طرق التعلم العميق بعض التقدم.

هيا بنا نبدأ.

في هذا المنشور، سنلقي نظرة على مشاكل الرؤية الحاسوبية التالية حيث تم استخدام التعلم العميق:

  1. تصنيف الصور Image Classification.
  2. تصنيف الصور مع التموضع Image Classification With Localization.
  3. كشف الكائن Object Detection.
  4. تجزئة الكائن Object Detection.
  5. نقل نمط الصورة Image Style Transfer.
  6. تلوين الصورة Image Colorization.
  7. إعادة بناء الصورة Image Reconstruction.
  8. دقة الصورة الفائقة Image Super-Resolution.
  9. تركيب الصورة Image Synthesis.
  10. مشاكل أخرى

ملاحظة، عندما يتعلق الأمر بمهام تصنيف الصور (التعرف عليها)، فقد تم اعتماد اصطلاح التسمية من ILSVRC. على الرغم من أن المهام تركز على الصور، إلا أنه يمكن تعميمها على إطارات الفيديو.

لقد حاولت التركيز على أنواع مشاكل المستخدم النهائي التي قد تكون مهتمًا بها، بدلاً من المشكلات الفرعية الأكاديمية حيث يكون التعلم العميق جيدًا.

يقدم كل مثال وصفًا للمشكلة ومثالًا ومراجعًا للمقالات التي توضح الأساليب والنتائج.

هل لديك تطبيق رؤية حاسوبية مفضل للتعلم العميق غير مدرج؟

اسمحوا لي أن نعرف في التعليقات أدناه.

يتضمن تصنيف الصورة Image classification تعيين تسمية label لصورة كاملة أو صورة فوتوغرافية.

يشار إلى هذه المشكلة أيضًا باسم “تصنيف الكائن object classification” وربما بشكل عام باسم “التعرف على الصور image recognition” ، على الرغم من أن هذه المهمة الأخيرة قد تنطبق على مجموعة أوسع بكثير من المهام المتعلقة بتصنيف محتوى الصور.

تتضمن بعض أمثلة تصنيف الصور ما يلي:

  • وصف الأشعة السينية بأنها سرطانية أم لا (تصنيف ثنائي binary classification).
  • تصنيف رقم مكتوب بخط اليد (تصنيف متعدد الفئات multiclass classification).
  • تعيين اسم لصورة وجه (تصنيف متعدد الطبقات multiclass classification).

مثال شائع لتصنيف الصور المستخدم كمشكلة معيارية هو مجموعة بيانات MNIST.

مثال على الأرقام المكتوبة بخط اليد من مجموعة بيانات MNIST

من الإصدارات الواقعية الشائعة لتصنيف الصور الرقمية مجموعة بيانات Street View House Numbers (SVHN).

للحصول على أحدث النتائج والمقالات ذات الصلة حول مهام تصنيف الصور هذه وغيرها، راجع:

هناك العديد من مهام تصنيف الصور التي تتضمن صورًا للأشياء. هناك مثالان شائعان يشتملان على مجموعتي بيانات CIFAR-10 و CIFAR-100 التي تحتوي على صور فوتوغرافية يتم تصنيفها إلى 10 و 100 فئة على التوالي.

يعد تحدي التعرف البصري واسع النطاق (ILSVRC) مسابقة سنوية تتنافس فيها الفرق للحصول على أفضل أداء في مجموعة من مهام الرؤية الحاسوبية على البيانات المستمدة من قاعدة بيانات ImageNet. لقد جاءت العديد من التطورات المهمة في تصنيف الصور من الأوراق المنشورة حول أو حول المهام من هذا التحدي، وأبرزها الأوراق المبكرة حول مهمة تصنيف الصور.

تصنيف الصور مع التموضع

يتضمن تصنيف الصورة مع التموضع Image classification with localization تعيين تسمية فئة لصورة وإظهار موقع الكائن في الصورة بواسطة مربع محيط (رسم مربع حول الكائن).

هذه نسخة أكثر صعوبة من تصنيف الصور.

تتضمن بعض الأمثلة على تصنيف الصور مع التموضع ما يلي:

  • وصف الأشعة السينية بأنها سرطان أم لا ورسم مربع حول المنطقة السرطانية.
  • تصنيف صور الحيوانات ورسم صندوق حول الحيوان في كل مشهد.

مجموعة البيانات الكلاسيكية لتصنيف الصور مع التموضع هي مجموعات بيانات PASCAL Visual Object Classes ، أو PASCAL VOC للاختصار (على سبيل المثال VOC 2012). هذه هي مجموعات البيانات المستخدمة في تحديات الرؤية الحاسوبية على مدار سنوات عديدة.

مثال على تصنيف الصور مع توطين كلب من المركباتVOC 2012

قد تتضمن المهمة إضافة مربعات إحاطة bounding boxes حول أمثلة متعددة لنفس الكائن في الصورة. على هذا النحو، قد يشار إلى هذه المهمة أحيانًا باسم “اكتشاف الكائن object detection “.

مثال على تصنيف الصور مع تموضع الكراسي المتعددة من VOC 2012

تعد مجموعة بيانات ILSVRC2016 لتصنيف الصور مع التموضع مجموعة بيانات شائعة تتكون من 150000 صورة فوتوغرافية بها 1000 فئة من الكائنات.

اكتشاف الكائن

يعد اكتشاف الكائن Object detection مهمة تصنيف الصورة مع التموضع ، على الرغم من أن الصورة قد تحتوي على كائنات متعددة تتطلب التموضع والتصنيف.

هذه مهمة أكثر صعوبة من التصنيف البسيط للصور أو تصنيف الصور مع التموضع ، حيث غالبًا ما توجد كائنات متعددة في الصورة من أنواع مختلفة.

في كثير من الأحيان، يتم استخدام التقنيات التي تم تطويرها لتصنيف الصور مع التموضع وعرضها لاكتشاف الكائنات.

تتضمن بعض الأمثلة على اكتشاف الكائنات ما يلي:

  • رسم مربع احاطة وتسمية كل كائن في مشهد الشارع.
  • رسم مربع احاطة وتسمية كل كائن في صورة داخلية.
  • رسم مربع احاطة وتسمية كل كائن في منظر طبيعي.

مجموعات بيانات PASCAL Visual Object Classes، أو PASCAL VOC للاختصار (مثل VOC 2012) ، هي مجموعة بيانات شائعة لاكتشاف الكائنات.

مجموعة بيانات أخرى لمهام الرؤية الحاسوبية المتعددة هي كائنات Microsoft الشائعة في مجموعة بيانات السياق ، والتي يشار إليها غالبًا باسم MS COCO.

مثال على اكتشاف الكائن باستخدام R-CNN أسرع على مجموعة بيانات MS COCO

تجزئة الكائن

تجزئة الكائن Object segmentation، أو التجزئة الدلالية semantic segmentation، هي مهمة اكتشاف الكائن حيث يتم رسم خط حول كل كائن تم اكتشافه في الصورة. تجزئة الصورة هي مشكلة عامة تتمثل في تقطيع الصورة إلى شرائح.

يشار أيضًا إلى اكتشاف الكائن أحيانًا باسم تجزئة الكائن.

على عكس اكتشاف الكائن الذي يتضمن استخدام مربع احاطة لتحديد الكائنات، فإن تجزئة الكائن تحدد وحدات البكسل المحددة في الصورة التي تنتمي إلى الكائن. إنه مثل التموضع الدقيق.

بشكل عام، قد يشير مصطلح “تجزئة الصورة” إلى تقسيم جميع وحدات البكسل في الصورة إلى فئات مختلفة من الكائنات.

مرة أخرى، يمكن استخدام مجموعات البيانات VOC 2012 و MS COCO لتجزئة الكائنات.

مثال على تجزئة الكائن في مجموعة بيانات COCO
مأخوذة من “Mask R-CNN”.

مجموعة KITTI Vision Benchmark Suite هي مجموعة بيانات أخرى لتجزئة الكائنات تحظى بشعبية كبيرة، وتوفر صورًا للشوارع المخصصة لنماذج التدريب للمركبات ذاتية القيادة autonomous vehicles.

نقل النمط

نقل النمط Style transfer أو نقل النمط العصبي neural style transfer هو مهمة تعلم النمط من صورة واحدة أو أكثر وتطبيق هذا النمط على صورة جديدة.

يمكن اعتبار هذه المهمة كنوع من مرشح الصور أو التحويل الذي قد لا يكون له تقييم موضوعي.

تتضمن الأمثلة تطبيق أسلوب أعمال فنية مشهورة معينة (على سبيل المثال من قبل بابلو بيكاسو أو فينسنت فان جوخ) على صور فوتوغرافية جديدة.

غالبًا ما تتضمن مجموعات البيانات استخدام الأعمال الفنية الشهيرة الموجودة في المجال العام والصور الفوتوغرافية من مجموعات بيانات الرؤية الحاسوبية القياسية.

مثال على نقل النمط العصبي من الأعمال الفنية الشهيرة إلى صورة فوتوغرافية
مأخوذة من “خوارزمية عصبية ذات أسلوب فني”

تلوين الصورة

يتضمن تلوين الصورة Image colorization أو التلوين العصبي neural colorization تحويل صورة ذات تدرج رمادي إلى صورة كاملة الألوان.

يمكن اعتبار هذه المهمة كنوع من مرشح الصور أو التحويل الذي قد لا يكون له تقييم موضوعي.

تشمل الأمثلة تلوين الصور والأفلام القديمة بالأبيض والأسود.

غالبًا ما تتضمن مجموعات البيانات استخدام مجموعات بيانات الصور الموجودة وإنشاء إصدارات بتدرج الرمادي من الصور التي يجب أن تتعلم النماذج تلوينها.

أمثلة على تلوين الصور مأخوذة من “تلوين الصور الملونة”

إعادة بناء الصورة

إعادة بناء الصورة Image reconstruction هي مهمة ملء الأجزاء المفقودة أو التالفة من الصورة.

يمكن اعتبار هذه المهمة كنوع من مرشح الصور أو التحويل الذي قد لا يكون له تقييم موضوعي.

تشمل الأمثلة إعادة بناء الصور والأفلام القديمة والأبيض والأسود التالفة (مثل استعادة الصور photo restoration).

غالبًا ما تتضمن مجموعات البيانات استخدام مجموعات بيانات الصور الموجودة وإنشاء إصدارات تالفة من الصور التي يجب أن تتعلم النماذج إصلاحها.

مثال على الرسم الداخلي للصور.
مأخوذة من “رسم الصورة للثقوب غير المنتظمة باستخدام التلافيف الجزئية”

دقة الصورة الفائقة

الدقة الفائقة للصورة Image super-resolution هي مهمة إنشاء نسخة جديدة من الصورة بدقة وتفاصيل أعلى من الصورة الأصلية.

غالبًا ما يمكن استخدام النماذج المطورة للدقة الفائقة للصورة لاستعادة الصورة والرسم أثناء حل المشكلات ذات الصلة.

غالبًا ما تتضمن مجموعات البيانات استخدام مجموعات بيانات الصور الموجودة وإنشاء إصدارات مصغرة من الصور التي يجب أن تتعلم النماذج الخاصة بها إنشاء إصدارات فائقة الدقة.

مثال على نتائج تقنيات الدقة الفائقة المختلفة.
مأخوذة من “الدقة الفائقة للصورة الواقعية للصورة الفردية باستخدام شبكة الخصومة التوليدية”

تركيب الصورة

تركيب الصور Image synthesis هو مهمة إنشاء تعديلات مستهدفة للصور الموجودة أو الصور الجديدة تمامًا.

هذه منطقة واسعة جدًا تتقدم بسرعة.

قد يتضمن تعديلات صغيرة على الصورة والفيديو (على سبيل المثال، الترجمة من صورة إلى صورة) ، مثل:

  • تغيير نمط كائن في مشهد.
  • إضافة كائن إلى مشهد.
  • إضافة وجه إلى المشهد.
مثال على تصميم الحمير الوحشية والخيول.
مأخوذة من “ترجمة غير مقترنة من صورة إلى صورة باستخدام شبكات خصومة متناسقة مع الدورة”

قد يشمل أيضًا إنشاء صور جديدة تمامًا، مثل:

  • توليد الوجوه.
  • توليد الحمامات.
  • توليد الملابس.

تطبيقات أخرى

هناك مشاكل أخرى مهمة ومثيرة للاهتمام لم أقم بتغطيتها لأنها ليست مهام رؤية حاسوبية بحتة.

أمثلة بارزة من صورة إلى نص ومن نص إلى صورة:

 

بواسطة
machinelearningmastery
المصدر
9 Applications of Deep Learning for Computer Vision

د. علاء طعيمة

كلية علوم الحاسوب وتكنولوجيا المعلومات / جامعة القادسية / العراق

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى