مدينة الحندية

الشبكات العصبية ذات الانتباه الهرمي: مناهج جديدة لتصنيف النص

February 6, 2018

min

Table of Content

Example H2

بقلم بوفين بابو، قائد التعلم الآلي

يعد تصنيف النص مهمة مهمة في معالجة اللغة الطبيعية حيث يتم تعيين فئات محددة مسبقًا للمستندات النصية. في هذه المقالة، سوف نستكشف الأساليب الحديثة لتصنيف النص التي تأخذ في الاعتبار بنية المستند بالإضافة إلى الاهتمام على مستوى الجملة.

بشكل عام، يكون سير عمل تصنيف النص كما يلي:

تقوم بجمع الكثير من نماذج النصوص المصنفة لكل فصل (مجموعة البيانات الخاصة بك). ثم تقوم باستخراج بعض الميزات من عينات النص هذه. يتم بعد ذلك إدخال ميزات النص من الخطوة السابقة إلى جانب التسميات في خوارزمية التعلم الآلي. بعد عملية التعلم، ستحفظ نموذج المصنف الخاص بك للتنبؤات المستقبلية.

فرق واحد بين التعلم الآلي الكلاسيكي والتعلم العميق عندما يأتي التصنيف هو أنه في التعلم العميق، يتم استخراج الميزات وتصنيفها معًا ولكن في التعلم الآلي الكلاسيكي، عادة ما تكون مهمتان منفصلتان.

يعد الاستخراج المناسب للميزات جزءًا مهمًا من التعلم الآلي لتصنيف المستندات، وربما يكون أكثر أهمية من اختيار خوارزمية التصنيف الصحيحة. إذا لم تختر ميزات جيدة، فلا يمكنك توقع أن يعمل نموذجك جيدًا. قبل مناقشة المزيد من استخراج الميزات، دعنا نتحدث عن بعض طرق تمثيل النص لاستخراج الميزات.

يتكون المستند النصي من جمل تتكون بدورها من كلمات. السؤال الآن هو: كيف نمثلها بطريقة يمكن من خلالها استخراج الميزات بكفاءة؟

يمكن أن يعتمد تمثيل المستند على نموذجين:

النماذج المنطقية القياسية: تستخدم هذه النماذج المنطق المنطقي وتستخدم نظرية المجموعة لاسترجاع المعلومات من النص. إنها غير فعالة مقارنة بنموذج الفضاء المتجه أدناه لأسباب عديدة وليست محور تركيزنا.
نماذج الفضاء المتجه: تعتمد جميع طرق تمثيل النص الحالية تقريبًا على VSMs. هنا، يتم تمثيل المستندات كمتجهات.

دعونا نلقي نظرة على طريقتين يمكن من خلالهما تنفيذ نماذج الفضاء المتجه لاستخراج الميزات.

حقيبة الكلمات (BOW) مع TF-IDF

في نموذج حقيبة الكلمات، يتم تمثيل النص كحقيبة من كلماته. المثال أدناه سيوضح ذلك.

فيما يلي نموذجان للمستندات النصية:

(1) يحب Bofin مشاهدة الأفلام. راهول يحب الأفلام أيضًا.

(2) يحب Bofin أيضًا لعب الطاولة.

استنادًا إلى الوثيقتين النصيتين المذكورتين أعلاه، يمكننا إنشاء قائمة بالكلمات في المستندات على النحو التالي.

الآن إذا كنت تفكر في نموذج بسيط لـ Bag of words بتردد المصطلح (عدد المرات التي يظهر فيها المصطلح في النص)، فستكون قوائم الميزات للمثالين أعلاه،

(1)

(الثاني)

إن تكرار المصطلح البسيط مثل هذا لتوصيف النص ليس دائمًا فكرة جيدة. بالنسبة للمستندات النصية الكبيرة، نستخدم شيئًا يسمى تردد المصطلح - تردد المستند العكسي (tf-idf). tf-جيش الدفاع الإسرائيلي هو نتاج إحصائيتين، مصطلح التردد (قدم) وتردد المستند العكسي (جيش الدفاع الإسرائيلي). لقد رأينا للتو من المثال أعلاه ماذا tf هو، الآن دعونا نفهم جيش الدفاع الإسرائيلي. بعبارات بسيطة، جيش الدفاع الإسرائيلي هو مقياس لمدى شيوع الكلمة في جميع المستندات. في حالة تكرار وجود كلمة داخل مستند، سيكون لهذه الكلمة تردد عالي المدى، وإذا كانت تحدث أيضًا بشكل متكرر في غالبية المستندات، فسيكون لها تردد عكسي منخفض للمستندات. في الأساس، جيش الدفاع الإسرائيلي يساعدنا على تصفية كلمات مثل، i، والتي تحدث بشكل متكرر ولكنها ليست مهمة لتحديد تميز المستند.

تضمين الكلمات باستخدام word2vec

Word2vec هي تقنية شائعة لإنتاج عمليات تضمين الكلمات. وهي تستند إلى فكرة أن معنى الكلمة يمكن إدراكه من خلال الكلمات المحيطة بها (مثل المثل: «أخبرني من هم أصدقاؤك وسأخبرك من أنت»). وتنتج مساحة متجهة من مجموعة كبيرة، مع تخصيص متجه مقابل لكل كلمة فريدة في المجموعة في مساحة المتجه. قلب word2vec عبارة عن شبكة عصبية ذات طبقتين يتم تدريبها على نمذجة السياق اللغوي للكلمات مثل الكلمات التي تشترك في سياقات مشتركة في المستند تكون قريبة جدًا داخل مساحة المتجه.

يستخدم Word2vec بنيتين للتمثيل. يمكنك (بشكل فضفاض) التفكير في إنشاء نموذج word2vec كعملية تتكون من معالجة كل كلمة في مستند بأي من هذه الطرق.

حقيبة الكلمات المستمرة (CBOW): في هذه البنية، يتنبأ النموذج بالكلمة الحالية من سياقها (الكلمات المحيطة داخل حجم النافذة المحدد)
سكيب جرام: في هذه البنية، يستخدم النموذج الكلمة الحالية للتنبؤ بالسياق.

أظهرت نماذج Word2vec المدربة على مجموعات نصية كبيرة (مثل ويكيبيديا الإنجليزية بأكملها) أنها تفهم بعض العلاقات المثيرة للاهتمام بين الكلمات كما هو موضح أدناه.

An example of word2vec models trained on large corpora, capturing interesting relationships among words. Here, not only the countries and their capitals cluster in two groups, the distance in vector space between them are also similar. Image source: DL4J — مثال لنماذج word2vec المدربة على الشركات الكبيرة، والتي تلتقط العلاقات المثيرة للاهتمام بين الكلمات. هنا، لا تتجمع البلدان وعواصمها في مجموعتين فحسب، بل تتشابه المسافة في مساحة المتجهات بينها أيضًا. مصدر الصورة: DL4J

باتباع نماذج الفضاء المتجه هذه، حققت الأساليب التي تستخدم التعلم العميق تقدمًا في تمثيلات النص. يمكن تصنيفها على نطاق واسع على أنها إما مناهج قائمة على الشبكة العصبية التلافيفية أو مناهج قائمة على الشبكة العصبية المتكررة (وخلفائها LSTM/GRU).

تم العثور على الشبكات العصبية التلافيفية (ConvNets) مثيرة للإعجاب لتطبيقات رؤية الكمبيوتر، وخاصة لتصنيف الصور. أظهرت الأبحاث الحديثة التي تستكشف ConvNets لمهام معالجة اللغة الطبيعية نتائج واعدة لتصنيف النصوص، مثل شار سي إن حيث يتم التعامل مع النص كنوع من الإشارات الأولية على مستوى الحرف، وتطبيق شبكات ConvNets الزمنية (أحادية البعد) عليه.

قد تكون الشبكة العصبية المتكررة ومشتقاتها أكثر البنى العصبية شهرة عند تقاطع التعلم العميق ومعالجة اللغة الطبيعية. يمكن لـ RNNs استخدام ذاكرتها الداخلية لمعالجة تسلسلات الإدخال، مما يجعلها بنية جيدة للعديد من مهام معالجة اللغة الطبيعية.

على الرغم من أن الأساليب القائمة على الشبكة العصبية المستقيمة لتصنيف النص كانت فعالة للغاية، فقد لوحظ أنه يمكن الحصول على تمثيلات أفضل من خلال تضمين المعرفة ببنية المستند في بنية النموذج. تم تصور هذه الفكرة من الفطرة السليمة التي تقول،

ليس كل جزء من المستند مناسبًا بنفس القدر للإجابة على استعلام منه.
يتضمن العثور على الأقسام ذات الصلة في المستند نمذجة تفاعلات الكلمات، وليس فقط وجودها بمعزل عن غيرها.

سنستكشف أحد هذه الأساليب حيث يتم دمج آليات الانتباه على مستوى الكلمات والجمل لتصنيف المستندات بشكل أفضل.

تطبيق الاهتمام الهرمي على النصوص

هناك رؤيتان أساسيتان من الطرق التقليدية التي ناقشناها حتى الآن على عكس طرق الانتباه الهرمي:

الكلمات تشكل الجمل والجمل تشكل المستندات. وبشكل أساسي، تحتوي الوثائق على هيكل هرمي ويمكن أن يكون التمثيل الذي يلتقط هذا الهيكل أكثر فعالية.
الكلمات والجمل المختلفة في المستند مفيدة بدرجات مختلفة.

لتوضيح ذلك، دعنا ننظر إلى المثال أدناه:

في مراجعة المطعم هذه، تقدم الجملة الثالثة معنى قويًا (المشاعر الإيجابية) وتساهم الكلمات المذهلة والرائعة بشكل أكبر في تحديد المشاعر في الجملة.

الآن دعونا نلقي نظرة على كيفية تصميم شبكات الانتباه الهرمية لتصنيف المستندات. كما قلت سابقًا، تتضمن هذه النماذج مستويين من الاهتمام، أحدهما على مستوى الكلمة والآخر على مستوى الجملة. يسمح هذا للنموذج بإيلاء اهتمام أقل أو أكثر للكلمات والجمل الفردية وفقًا لذلك عند إنشاء تمثيل المستند.

شبكة الانتباه الهرمية (هان) يتكون من عدة أجزاء،

مشفر تسلسل الكلمات
طبقة انتباه على مستوى الكلمة
مشفر الجملة
طبقة انتباه على مستوى الجملة

قبل استكشافها واحدة تلو الأخرى، دعونا نفهم قليلاً عن مشفر التسلسل المستند إلى GRU، والذي يمثل جوهر الكلمة ومشفر الجملة لهذه البنية.

الوحدات المتكررة المسورة أو GRU هي نوع مختلف من LSTMs (شبكات الذاكرة طويلة المدى) والتي هي في الواقع نوع من الشبكات العصبية المتكررة. إذا لم تكن على دراية بـ LSTMs، أقترح عليك القراءة هذه مقال رائع.

على عكس LSTM، تستخدم GRU آلية بوابة لتتبع حالة التسلسلات دون استخدام خلايا ذاكرة منفصلة. هناك نوعان من البوابات، بوابة إعادة الضبط وبوابة التحديث. يتحكمون معًا في كيفية تحديث المعلومات إلى الدولة.

راجع الرسم البياني أعلاه للحصول على الرموز المستخدمة في المحتوى التالي.

1. مشفر الكلمات

يتم استخدام GRU ثنائي الاتجاه للحصول على تعليقات توضيحية للكلمات من خلال تلخيص المعلومات من كلا الاتجاهين للكلمات وبالتالي دمج المعلومات السياقية.

أين x_هيهو متجه الكلمة المقابل للكلمة ث_ذلك.ونحن مصفوفة التضمين.

نحصل على تعليق توضيحي لكلمة معينة ث_هي من خلال ربط الحالة المخفية الأمامية والحالة المخفية الخلفية،

2. الاهتمام بالكلمة

لا تساهم كل الكلمات بالتساوي في معنى الجملة. لذلك نحتاج إلى آلية انتباه لاستخراج مثل هذه الكلمات المهمة لمعنى الجملة وتجميع تمثيل تلك الكلمات المفيدة لتشكيل متجه الجملة.

في البداية، نقوم بتغذية كلمة التعليق التوضيحي ح_هي من خلال MLP من طبقة واحدة للحصول عليها ش_هي(يسمى متجه السياق على مستوى الكلمة) كتمثيل مخفي لـ ح_ذلك.ثم نحصل على الأهمية ناقل (؟) كما هو موضح في المعادلة أعلاه. متجه السياق هو في الأساس تمثيل عالي المستوى لمدى أهمية الكلمة في الجملة المعينة وتعلمها أثناء عملية التدريب.

3. مشفر الجملة

على غرار كلمة التشفير، نستخدم هنا GRU ثنائي الاتجاه لترميز الجمل.

الحالات المخفية للأمام والخلف هي حسابات تتم على غرار كلمة التشفير والحالة المخفية. يتم الحصول على h من خلال ربطها على النحو التالي،

الآن الدولة المخفية ح_أنا يلخص الجمل المجاورة حول الجملة ولكن ما زلت مع التركيز على i.

4. الانتباه إلى الجملة

لمكافأة الجمل التي تعتبر أدلة لتصنيف المستند بشكل صحيح، نستخدم مرة أخرى آلية الانتباه على مستوى الجملة.

على غرار متجه سياق الكلمة، نقدم هنا أيضًا متجه السياق على مستوى الجملة ش_ق.

الآن متجه المستند v هو تمثيل عالي المستوى للوثيقة ويمكن استخدامه كميزات لتصنيف المستندات.

لذلك رأينا كيف يمكن استخدام بنية المستند والانتباه كميزات للتصنيف. في الدراسات المعيارية، تفوقت هذه الطريقة على الأساليب الشائعة الحالية بهامش لائق في مجموعات البيانات الشائعة مثل Yelp Reviews و IMDB و Yahoo Answers.

أخبرنا برأيك في شبكات الانتباه في قسم المناقشة أدناه ولا تتردد في طرح استفساراتك.

الشبكات العصبية ذات الانتباه الهرمي: مناهج جديدة لتصنيف النص

حقيبة الكلمات (BOW) مع TF-IDF

تضمين الكلمات باستخدام word2vec

تطبيق الاهتمام الهرمي على النصوص

Related Blogs

Predict Cyber Threats against your organization