في هذه المقالة، سوف آخذك من خلال شرح موجز لتقطيع الصور Image Segmentation في التعلم العميق. سأشرح فقط المفهوم الكامن وراء تقطيع الصورة هنا في هذه المقالة. إذا كنت ترغب في متابعة الجزء العملي من Image Segmentation، يمكنك مشاهدة البرنامج التعليمي هنا.
تقطيع الصورة في التعلم العميق
في تقطيع الصورة، يتم تصنيف كل بكسل وفقًا لفئة الكائن الذي ينتمي إليه (على سبيل المثال، طريق، سيارة، مشاة، مبنى، إلخ)، كما هو موضح في الشكل أدناه. لاحظ أنه لم يتم تمييز الكائنات المختلفة من نفس الفئة. على سبيل المثال، تنتهي جميع الدراجات الموجودة على الجانب الأيمن من الصورة المجزأة في شكل كتلة واحدة كبيرة من وحدات البكسل.
تتمثل الصعوبة الرئيسية في هذه المهمة في أنه عندما تمر الصور عبر شبكة CNN عادية، فإنها تفقد تدريجياً الدقة المكانية (بسبب الطبقات ذات الخطوات الأعلى من)؛ لذلك، قد ينتهي الأمر بشبكة CNN العادية إلى معرفة أن هناك شخصًا في مكان ما في أسفل يسار الصورة، لكنها لن تكون أكثر دقة من ذلك بكثير.
تمامًا مثل اكتشاف الكائنات object detection، هناك العديد من الأساليب المختلفة لمعالجة هذه المشكلة، بعضها معقد للغاية. ومع ذلك، تم اقتراح حل بسيط إلى حد معقول في ورقة عام 2015 بواسطة Jonathan Long et al. يبدأ المؤلف بأخذ CNN مُدرَّبة مسبقًا وتحويلها إلى FCN.
يطبق CNN خطوة (stride) إجمالية قدرها 32 على صورة الإدخال، مما يعني أن مخرجات الطبقة الأخيرة تتميز بخرائط ميزات feature maps أصغر 32 مرة من الصورة المدخلة. هذا خشن جدًا، لذلك يضيفون طبقة اختزال واحدة تضاعف الدقة بمقدار 32.
هناك العديد من الحلول المتاحة للـ upsampling (زيادة حجم الصورة)، مثل الاستيفاء الثنائي الخطي bilinear interpolation، ولكن هذا يعمل فقط بشكل معقول حتى * 4 أو 8 * بدلاً من ذلك، يستخدمون طبقة تلافيفية منقولة transposed convolutional layer. يكافئ تمديد الصورة أولاً عن طريق إدخال صفوف وأعمدة فارغة (مليئة بالأصفار) وإجراء التفاف منتظم.
بدلاً من ذلك، يفضل بعض الناس اعتبارها طبقة تلافيفية متسقة يمكن تهيئتها لأداء شيء قريب من الاستيفاء الخطي. ومع ذلك، نظرًا لأنها طبقة قابلة للتدريب، فسوف تتعلم كيفية القيام بعمل أفضل أثناء التدريب.
في tf.keras ، يمكنك استخدام طبقة conv2DTranspose. أتمنى أن تكون قد أحببت هذا المقال حول مفهوم تقطيع الصورة في التعلم العميق. كان هذا شرحًا نظريًا، يمكنك الاطلاع على الدليل العملي من هنا..