- إشارات الانتباه
- تجميع الانتباه
- دوال تسجيل الانتباه
- انتباه Bahdanau
- الانتباه متعدد الرؤوس
- الانتباه الذاتي والتشفير الموضعي
- معمارية المحولات
- محولات الرؤية
- التدريب المسبق على نطاق واسع باستخدام المحولات
يتلقى العصب البصري للنظام البصري الرئيسي مدخلات حسية هائلة، تتجاوز بكثير ما يمكن للدماغ معالجته بشكل كامل. لحسن الحظ، ليست كل المحفزات متساوية. مكّن التركيز البؤري للوعي وتركيزه الرئيسي من توجيه الانتباه إلى الأشياء محل الاهتمام، مثل الفرائس والحيوانات المفترسة، في البيئة المرئية المعقدة. إن القدرة على الانتباه إلى جزء صغير فقط من المعلومات لها أهمية تطورية، مما يسمح للبشر بالعيش والنجاح.
كان العلماء يدرسون الانتباه attention في مجال علم الأعصاب الإدراكي cognitive neuroscience منذ القرن التاسع عشر. في هذا الفصل، سنبدأ بمراجعة إطار عمل شائع لشرح كيفية نشر الانتباه في المشهد المرئي. مستوحاة من إشارات الانتباه attention cues في هذا الإطار، سنصمم نماذج تستفيد من إشارات الانتباه هذه. والجدير بالذكر أن انحدار نواة Nadaraya-Watson في عام 1964 هو عرض بسيط للتعلم الآلي مع آليات الانتباه attention mechanisms. بعد ذلك، سوف نقدم دوال الانتباه التي تم استخدامها على نطاق واسع في تصميم نماذج الانتباه في التعلم العميق. على وجه التحديد، سوف نوضح كيفية استخدام هذه الدوال لتصميم انتباه باهدانو Bahdanau attention، وهو نموذج اهتمام رائد في التعلم العميق يمكن أن يتماشى بشكل ثنائي الاتجاه وقابل للتفاضل.
مجهزة بأحدث تصميمات الانتباه متعدد الرؤوس multi-head attention والانتباه الذاتي self-attention، تعتمد بُنية المحولات فقط على آليات الانتباه attention mechanisms. سننتقل إلى وصف التصميم الأصلي المشفر-مفكك الشفرة للترجمة الآلية. ثم سنبين كيف يمكن المشفر الخاص به تمثيل الصور، مما يؤدي إلى تطوير محولات الرؤية vision transformers. عند تدريب نماذج كبيرة جدًا على مجموعات بيانات كبيرة جدًا (على سبيل المثال، 300 مليون صورة)، تتفوق محولات الرؤية على ResNets بشكل كبير في تصنيف الصور، مما يدل على قابلية التوسع الفائقة للمحولات. وبالتالي، تم استخدام المحولات على نطاق واسع في التدريب المسبق على نطاق واسع، والتي يمكن تكييفها لأداء مهام مختلفة مع تحديث النموذج (على سبيل المثال، الضبط الدقيق fine tuning) أو لا (على سبيل المثال، عدد قليل من اللقطات few shot). في النهاية، سنراجع كيفية التصفية المسبقة للمحولات كمشفرات فقط encoder-only (على سبيل المثال، BERT)، ومشفر-مفكك الشفرة encoder-decoder (على سبيل المثال، T5)، ومفكك الشفرة فقط decoder-only (على سبيل المثال، سلسلة GPT). يشير النجاح المقنع للتدريب المسبق على نطاق واسع باستخدام المحولات في مجالات متنوعة مثل اللغة والرؤية والكلام والتعلم المعزز إلى أن الأداء الأفضل يستفيد من النماذج الأكبر، والمزيد من بيانات التدريب، والمزيد من حوسبة التدريب.