التعلم العميق

الشبكات العصبية التلافيفية

ستقرأفي هذا الفصل:
  • من الطبقات المتصلة بالكامل إلى التلافيف
  • التلافيف للصور
  • الحشو والخطوة
  • مدخلات متعددة وقنوات إخراج متعددة
  • التجميع
  • الشبكات العصبية التلافيفية (LeNet)

يتم تمثيل بيانات الصورة كشبكة ثنائية الأبعاد من البكسل، سواء كانت أحادية اللون أو ملونة. وفقًا لذلك، يتوافق كل بكسل مع قيمة عددية واحدة أو عدة قيم رقمية على التوالي. حتى الآن تجاهلنا هذه البُنية الغنية وعاملناها كمتجهات للأرقام من خلال تسطيح flattening الصور، بغض النظر عن العلاقة المكانية بين وحدات البكسل. كان هذا النهج غير المرضي للغاية ضروريًا لتغذية المتجهات أحادية البعد الناتجة من خلال MLP متصلة بالكامل.

نظرًا لأن هذه الشبكات ثابتة في ترتيب الميزات، يمكننا الحصول على نتائج مماثلة بغض النظر عما إذا كنا نحتفظ بترتيب يتوافق مع البُنية المكانية للبكسل أو إذا قمنا بتغيير أعمدة مصفوفة التصميم الخاصة بنا قبل ملاءمة fitting معلمات MLP. على نحو مفضل، سنستفيد من معرفتنا السابقة بأن وحدات البكسل القريبة ترتبط عادةً ببعضها البعض، لبناء نماذج فعالة للتعلم من بيانات الصورة.

يقدم هذا الفصل الشبكات العصبية التلافيفية (CNN)، (LeCun et al.، 1995)، وهي عائلة قوية من الشبكات العصبية المصممة لهذا الغرض تحديدًا. أصبحت البُنى القائمة على CNN موجودة في كل مكان الآن في مجال الرؤية الحاسوبية. على سبيل المثال، في مجموعة Imagnet، (Deng et al.، 2009)، كان استخدام الشبكات العصبية التلافيفية، باختصار Convnets هو الذي وفر تحسينات كبيرة في الأداء (Krizhevsky et al.، 2012).

شبكات CNN الحديثة، كما يطلق عليها بالعامية، تدين بتصميمها إلى الإلهام من علم الأحياء biology، ونظرية المجموعة group theory، وجرعة صحية من الترقيع التجريبي experimental tinkering. بالإضافة إلى كفاءة العينة sample efficiency في تحقيق نماذج دقيقة achieving accurate models، تميل شبكات CNN إلى أن تكون فعالة من الناحية الحسابية، وذلك لأنها تتطلب معلمات أقل من البُنى المتصلة تمامًا ولأن الالتفافات convolutions سهلة الموازاة عبر نوى وحدة معالجة الرسومات (Chetlur et al.، 2014). وبالتالي، غالبًا ما يطبق الممارسون شبكات CNN كلما أمكن ذلك، وقد برزوا بشكل متزايد كمنافسين موثوق بهم حتى في المهام ذات الهيكل التسلسلي أحادي البعد، مثل الصوت (Abdel-Hamid et al.، 2014)، النص (Kalchbrenner et al.، 2014)، وتحليل السلاسل الزمنية time series analysis (LeCun et al.، 1995)، حيث يتم استخدام الشبكات العصبية المتكررة (RNN) recurrent neural networks بشكل تقليدي. كما أن بعض التعديلات الذكية لشبكات CNN قد جعلتها تؤثر على البيانات المهيكلة بالرسوم البيانية graph-structured data (Kipf and Welling، 2016) وفي أنظمة التوصية recommender systems.

أولاً، سوف نتعمق أكثر في دوافع الشبكات العصبية التلافيفية. ويلي ذلك جولة في العمليات الأساسية التي تشكل العمود الفقري لجميع الشبكات التلافيفية. وتشمل هذه الطبقات التلافيفية نفسها convolutional layers، والتفاصيل الدقيقة بما في ذلك الحشو padding والخطوة stride، وطبقات التجميع pooling layers المستخدمة لتجميع المعلومات عبر المناطق المكانية المجاورة، واستخدام قنوات متعددة في كل طبقة، ومناقشة دقيقة لهيكل البُنى الحديثة. سنختتم الفصل بمثال عملي كامل لـ LeNet، أول شبكة تلافيفية تم نشرها بنجاح، قبل وقت طويل من ظهور التعلم العميق الحديث. في الفصل التالي، سوف نتعمق في التطبيقات الكاملة لبعض أبنية CNN الشائعة والحديثة نسبيًا والتي تمثل تصميماتها معظم التقنيات المستخدمة بشكل شائع من قبل الممارسين المعاصرين.

 

رابط الكتاب

المصدر
Dive into Deep Learning

د. علاء طعيمة

كلية علوم الحاسوب وتكنولوجيا المعلومات / جامعة القادسية / العراق

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى