التعمق في التعلم العميققابلية التوسع والكفاءة والتطبيقات

المعالجة اللغوية الطبيعية: التدريب المسبق

ستقرأ في هذا الفصل:
  • تضمين كلمة (word2vec) Word Embedding
  • التدريب التقريبي Approximate Training
  • مجموعة البيانات الخاصة بالتدريب المسبق لتضمين الكلمات The Dataset for Pretraining Word Embeddings
  • التدريب المسبق لـ word2vec
  • تضمين الكلمة مع المتجهات العالمية (GloVe)
  • تضمين الكلمات الفرعية
  • تشابه الكلمات وقياسها Word Similarity and Analogy
  • تمثيلات التشفير ثنائي الاتجاه من المحولات (BERT)
  • مجموعة البيانات الخاصة بالتدريب المسبق لبيرت
  • التدريب المسبق لبيرت

يحتاج البشر إلى التواصل. من هذه الحاجة الأساسية للحالة البشرية، تم إنشاء قدر كبير من النصوص المكتوبة على أساس يومي. نظرًا للنص الغني في الوسائط الاجتماعية وتطبيقات الدردشة ورسائل البريد الإلكتروني ومراجعات المنتجات والمقالات الإخبارية والأوراق البحثية والكتب، يصبح من الضروري تمكين أجهزة الكمبيوتر من فهمها لتقديم المساعدة أو اتخاذ القرارات بناءً على اللغات البشرية.

تدرس المعالجة اللغوية الطبيعية Natural language processing التفاعلات بين أجهزة الكمبيوتر والبشر باستخدام اللغات الطبيعية. من الناحية العملية، من الشائع جدًا استخدام تقنيات المعالجة اللغوية الطبيعية لمعالجة وتحليل بيانات النص (لغة الإنسان الطبيعية)، مثل نماذج اللغة language models في القسم 9.3 ونماذج الترجمة الآلية machine translation models في القسم 10.5.

لفهم النص، يمكننا أن نبدأ من خلال تعلم تمثيلاته. من خلال الاستفادة من التسلسلات النصية الحالية من مجموعات كبيرة، تم استخدام التعلم تحت الإشراف الذاتي self-supervised learning على نطاق واسع لإجراء تمثيلات نصية مسبقة، مثل التنبؤ ببعض الأجزاء المخفية من النص باستخدام جزء آخر من النص المحيط بها. بهذه الطريقة، تتعلم النماذج من خلال الإشراف من البيانات النصية الضخمة massive text data دون بذل جهود باهظة في وضع العلامات (التسميات) expensive labeling efforts!

كما سنرى في هذا الفصل، عند معالجة كل كلمة أو كلمة فرعية كرمز فردي individual token، يمكن تدريب تمثيل كل رمز مسبقًا باستخدام نماذج word2vec أو GloVe أو تضمين الكلمات الفرعية على مجموعة كبيرة large corpora. بعد التدريب المسبق pretraining، يمكن أن يكون تمثيل كل رمز متجهًا vector، ومع ذلك، فإنه يظل كما هو بغض النظر عن السياق. على سبيل المثال، تمثيل المتجه لكلمة “bank” هو نفسه في كل من ” go to the bank to deposit some money” و ” go to the bank to sit down”. وبالتالي، فإن العديد من نماذج ما قبل التدريب الحديثة تكيف تمثيل نفس الرمز في سياقات مختلفة. من بينها BERT، وهو نموذج أعمق يخضع للإشراف الذاتي يعتمد على مشفر المحولات transformer encoder. في هذا الفصل، سوف نركز على كيفية إجراء مثل هذه التمثيلات للنص، كما هو موضح في الشكل 15.1.

الشكل 15.1 يمكن تغذية تمثيلات النص المحددة مسبقًا إلى العديد من بُنيات التعلم العميق لمختلف تطبيقات المعالجة اللغوية الطبيعية. يركز هذا الفصل على التدريب المسبق على تمثيل النص الأولي.

لرؤية الصورة الكبيرة، يوضح الشكل 15.1 أنه يمكن تغذية تمثيلات النص التي تم اختبارها مسبقًا لمجموعة متنوعة من بُنيات التعلم العميق لتطبيقات المعالجة اللغوية الطبيعية المختلفة. سوف نغطيها في القسم 16.

رابط الكتاب

المصدر
Dive into Deep Learning

د. علاء طعيمة

كلية علوم الحاسوب وتكنولوجيا المعلومات / جامعة القادسية / العراق

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى