التعمق في التعلم العميققابلية التوسع والكفاءة والتطبيقات

خوارزميات التحسين

ستقرأ في هذا الفصل:
  • التحسين والتعلم العميق
  • التحدب Convexity
  • الانحدار الاشتقاقي Gradient Descent
  • الانحدار الاشتقاقي العشوائي Stochastic Gradient Descent
  • الانحدار الاشتقاقي ذو الدفعات الصغيرة Minibatch Stochastic Gradient Descent
  • الزخم Momentum
  • Adagrad
  • RMSProp
  • Adadelta
  • Adam
  • جدولة معدل التعلم Learning Rate Scheduling

إذا قرأت الكتاب بالتسلسل حتى هذه النقطة، فقد استخدمت بالفعل عددًا من خوارزميات التحسين optimization algorithms لتدريب نماذج التعلم العميق. لقد كانت الأدوات التي سمحت لنا بمواصلة تحديث معلمات النموذج وتقليل قيمة دالة الخطأ، كما تم تقييمها في مجموعة التدريب. في الواقع، يمكن لأي شخص يتعامل مع التحسين كجهاز صندوق أسود لتقليل minimize دوال الهدف objective functions في إعداد بسيط أن يقنع نفسه بمعرفة أن هناك مجموعة من التعويذات لمثل هذا الإجراء (بأسماء مثل “SGD” و “Adam”).

للقيام بعمل جيد، مع ذلك، هناك حاجة إلى بعض المعرفة الأعمق. تعد خوارزميات التحسين مهمة للتعلم العميق. من ناحية أخرى، قد يستغرق تدريب نموذج التعلم العميق المعقد ساعات أو أيامًا أو حتى أسابيع. يؤثر أداء خوارزمية التحسين بشكل مباشر على كفاءة تدريب النموذج. من ناحية أخرى، فإن فهم مبادئ خوارزميات التحسين المختلفة ودور معلماتها الفائقة hyperparameters سيمكننا من ضبط المعلمات الفائقة بطريقة مستهدفة لتحسين أداء نماذج التعلم العميق.

في هذا الفصل، نستكشف بعمق خوارزميات تحسين التعلم العميق الشائعة. تقريبًا جميع مشكلات التحسين التي تنشأ في التعلم العميق هي مشكلات غير محدبة nonconvex. ومع ذلك، فقد ثبت أن تصميم وتحليل الخوارزميات في سياق المشكلات المحدبة convex problems مفيد للغاية. ولهذا السبب يتضمن هذا الفصل كتابًا تمهيديًا عن التحسين المحدب convex optimization وإثبات خوارزمية التدرج الاشتقاقي العشوائي stochastic gradient descent البسيطة جدًا على دالة هدف محدبة convex objective function.

 

رابط الكتاب

المصدر
Dive into Deep Learning

د. علاء طعيمة

كلية علوم الحاسوب وتكنولوجيا المعلومات / جامعة القادسية / العراق

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى