- الشبكات العصبية التلافيفية العميقة (AlexNet)
- الشبكات التي تستخدم الكتل (VGG)
- الشبكة في الشبكة (NiN)
- شبكات متعددة الفروع (GoogLeNet)
- التسوية بالدفعات
- الشبكات المتبقية (ResNet) وResNeXt
- الشبكات كثيفة الاتصال (DenseNet)
- تصميم معماريات شبكة الالتفاف
الآن بعد أن فهمنا أساسيات توصيل شبكات CNN معًا، فلنقم بجولة في هياكل CNN الحديثة. هذه الجولة، بالضرورة، غير مكتملة، وذلك بفضل العدد الكبير من التصاميم الجديدة المثيرة التي تمت إضافتها. تنبع أهميتها من حقيقة أنه لا يمكن استخدامها مباشرة لمهام الرؤية فحسب، بل إنها تعمل أيضًا كمولدات ميزات أساسية للمهام الأكثر تقدمًا مثل التتبع tracking (Zhang et al.، 2021)، والتقطيع segmentation (Long et al.، 2015)، اكتشاف الكائن object detection (Redmon and Farhadi، 2018)، أو تغيير النمط style transformation (Gatys et al.، 2016). في هذا الفصل، تتوافق معظم الأقسام مع بُنية CNN الهامة التي كانت في مرحلة ما (أو حاليًا) النموذج الأساسي الذي تم بناء العديد من مشاريع البحث والأنظمة المنشورة عليه. كانت كل من هذه الشبكات لفترة وجيزة معمارية مهيمنة وكان العديد منهم فائزين أو وصيفين في مسابقة ImageNet التي كانت بمثابة مقياس للتقدم في التعلم الخاضع للإشراف في الرؤية الحاسوبية منذ عام 2010. وفي الآونة الأخيرة فقط بدأت المحولات transformers في استبدال شبكات CNN، بدءًا من Dosovitskiy et al. (2021) ويليه محولswin، (Liu et al.، 2021). سنغطي هذا التطور لاحقًا في الفصل الخاص بآليات الانتباه والمحولات Attention Mechanisms and Transformers.
في حين أن فكرة الشبكات العصبية العميقة بسيطة للغاية (تكديس مجموعة من الطبقات معًا)، يمكن أن يختلف الأداء بشكل كبير عبر خيارات البُنى والمعلمات الفائقة. الشبكات العصبية الموصوفة في هذا الفصل هي نتاج الحدس intuition، وبعض الأفكار الرياضية، والكثير من التجربة والخطأ trial and error. نقدم هذه النماذج بترتيب زمني، جزئيًا لنقل إحساس بالتاريخ بحيث يمكنك تكوين حدسك الخاص حول المكان الذي يتجه إليه المجال وربما تطوير البُنى الخاصة بك. على سبيل المثال، قدّم التسوية بالدُفعات batch normalization والتوصيلات المتبقية الموصوفة residual connections في هذا الفصل فكرتين شائعتين للتدريب وتصميم النماذج العميقة، وكلاهما تم تطبيقهما منذ ذلك الحين على البُنى التي تتجاوز الرؤية الحاسوبية أيضًا.
نبدأ جولتنا في شبكات CNN الحديثة مع AlexNet ،(Krizhevsky et al.، 2012)، وهي أول شبكة واسعة النطاق تم نشرها للتغلب على أساليب الرؤية الحاسوبية التقليدية في تحدي الرؤية واسع النطاق ؛ شبكة VGG ،(Simonyan and Zisserman، 2014) ، والتي تستخدم عددًا من الكتل المتكررة للعناصر ؛ الشبكة في الشبكة (NiN) التي تجمع الشبكات العصبية بالكامل عبر المدخلات (Lin et al. ، 2013) ؛ GoogLeNet التي تستخدم شبكات ذات تلافيف متعددة الفروع multi-branch convolutions (Szegedy وآخرون ، 2015) ؛ الشبكة المتبقية residual network (ResNet) ،(He et al.، 2016) ، والتي لا تزال من أشهر البُنى الجاهزة off-the-shelf architectures في الرؤية الحاسوبية ؛ كتل ResNeXt (Xie وآخرون ، 2017) للاتصالات المتفرقة sparser connections؛ و DenseNet ،(Huang et al.,2017) لتعميم العمارة المتبقية. بمرور الوقت، تم تطوير العديد من التحسينات الخاصة للشبكات الفعالة، مثل تحويلات الإحداثيات coordinate shifts (ShiftNet)، (Wu et al.، 2018). بلغ هذا ذروته في البحث التلقائي عن بنيات فعالة مثل MobileNet v3 ،(Howard et al..2019). ويشمل أيضًا استكشاف التصميم شبه التلقائي semi-automatic design exploration لـ Radosavovic et al. (2020) التي أدت إلى RegNetX / Y والتي سنناقشها لاحقًا في هذا الفصل. العمل مفيد بقدر ما يوفر مسارًا لتزاوج حساب القوة العمياء ببراعة المجرب في البحث عن مساحات تصميم فعالة. وتجدر الإشارة أيضًا إلى عمل Liu et al. (2022) كما يوضح أن تقنيات التدريب (مثل، المحسنون optimizers، وزيادة البيانات data augmentation، والتنظيم regularization) تلعب دورًا محوريًا في تحسين الدقة. كما يوضح أيضًا أن الافتراضات القديمة، مثل حجم نافذة الالتفاف، قد تحتاج إلى إعادة النظر، نظرًا للزيادة في الحساب والبيانات. سنغطي هذا والعديد من الأسئلة الأخرى في الوقت المناسب خلال هذا الفصل.