الشبكات العصبية المتكررة الحديثة

الذاكرة طويلة قصيرة المدى (LSTM)
الوحدات المتكررة ذات البوابات (GRU)
الشبكات العصبية المتكررة العميقة
الشبكات العصبية المتكررة ثنائية الاتجاه
الترجمة الآلية ومجموعة البيانات
معمارية المشفر ومفكك الشفرة
المشفر-مفكك الشفرة Seq2Seq للترجمة الآلية
البحث الشعاعي

قدم الفصل السابق الأفكار الرئيسية وراء الشبكات العصبية المتكررة (RNNs). ومع ذلك، تمامًا كما هو الحال مع الشبكات العصبية التلافيفية CNN، كان هناك قدر هائل من الابتكار في معماريات RNN، وبلغت ذروتها في العديد من التصميمات المعقدة التي أثبتت نجاحها في الممارسة. على وجه الخصوص، تتميز التصميمات الأكثر شيوعًا بآليات للتخفيف من عدم الاستقرار العددي numerical instability السيئ السمعة الذي تواجهه RNNs، كما يتجلى في اختفاء التدرجات وانفجارها. تذكر أننا في القسم 9 تعاملنا مع انفجار التدرج من خلال تطبيق استدلال قص متدرج حاد gradient clipping heuristic. على الرغم من فعالية هذا الاختراق، فإنه يترك مشكلة اختفاء التدرجات مفتوحة.

في هذا الفصل، نقدم الأفكار الرئيسية وراء أنجح بُنى RNN للتسلسل، والتي تنبع من مقالتين تم نشرهما في عام 1997. المقالة الأولى، الذاكرة طويلة قصيرة المدى LSTM (Hochreiter and Schmidhuber ، 1997) ، تقدم خلية الذاكرة ، وهي وحدة الحساب التي تحل محل العقد التقليدية في الطبقة المخفية للشبكة. باستخدام خلايا الذاكرة هذه، تكون الشبكات قادرة على التغلب على صعوبات التدريب التي واجهتها الشبكات المتكررة السابقة. حدسيًا، تتجنب خلية الذاكرة مشكلة التدرج المتلاشي عن طريق الاحتفاظ بالقيم في الحالة الداخلية لكل خلية ذاكرة متتالية على طول حافة متكررة بوزن 1 عبر العديد من الخطوات الزمنية المتتالية. تساعد مجموعة من البوابات المضاعفة الشبكة على تحديد كل من المدخلات التي يجب السماح بدخولها في حالة الذاكرة، ومتى يجب أن يؤثر محتوى حالة الذاكرة على إخراج النموذج.

المقالة الثانية، الشبكات العصبية المتكررة ثنائية الاتجاه Bidirectional Recurrent Neural Networks (Schuster and Paliwal، 1997) ، تقدم بُنية يتم فيها استخدام المعلومات من كل من المستقبل (الخطوات الزمنية اللاحقة) والماضي (الخطوات الزمنية السابقة) لتحديد المخرجات في أي نقطة في تسلسل. هذا على عكس الشبكات السابقة، حيث يمكن أن تؤثر المدخلات السابقة فقط على المخرجات. أصبحت RNNs ثنائية الاتجاه الدعامة الأساسية لمهام وضع العلامات التسلسلية في معالجة اللغة الطبيعية، من بين مهام أخرى لا تعد ولا تحصى. لحسن الحظ، لا يتعارض الابتكاران مع بعضهما البعض، وقد تم دمجهما بنجاح لتصنيف الصوتيات phoneme classification (Graves and Schmidhuber ، 2005) والتعرف على خط اليد handwriting recognition (Graves et al. ، 2008).

ستشرح الأقسام الأولى في هذا الفصل بُنية LSTM، وهي نسخة أخف وزنًا تسمى الوحدة المتكررة ذات البوابات gated recurrent unit (GRU)، والأفكار الرئيسية وراء شبكات RNN ثنائية الاتجاه وشرح موجز لكيفية تكديس طبقات RNN معًا لتكوين شبكات RNN عميقة. بعد ذلك، سوف نستكشف تطبيق RNNs في مهام التسلسل إلى التسلسل، وإدخال الترجمة الآلية جنبًا إلى جنب مع الأفكار الرئيسية مثل معماريات المشفر -مفكك الشفرة encoder-decoder architectures والبحث الشعاعي beam search.

رابط الكتاب

المصدر