🚀 لقد رفعت CloudSek جولة B1 من السلسلة B1 بقيمة 19 مليون دولار - تعزيز مستقبل الأمن السيبراني التنبؤي

الشبكات العصبية ذات الانتباه الهرمي: مناهج جديدة لتصنيف النص

الشبكات العصبية ذات الانتباه الهرمي: مناهج جديدة لتصنيف النص

February 6, 2018
Green Alert
Last Update posted on
August 19, 2025
ما وراء المراقبة: الحماية التنبؤية للمخاطر الرقمية باستخدام CloudSek

قم بحماية مؤسستك من التهديدات الخارجية مثل تسرب البيانات وتهديدات العلامة التجارية والتهديدات الناشئة عن الويب المظلم والمزيد. حدد موعدًا لعرض تجريبي اليوم!

Schedule a Demo
Table of Contents
Author(s)
No items found.

بقلم بوفين بابو، قائد التعلم الآلي

يعد تصنيف النص مهمة مهمة في معالجة اللغة الطبيعية حيث يتم تعيين فئات محددة مسبقًا للمستندات النصية. في هذه المقالة، سوف نستكشف الأساليب الحديثة لتصنيف النص التي تأخذ في الاعتبار بنية المستند بالإضافة إلى الاهتمام على مستوى الجملة.

بشكل عام، يكون سير عمل تصنيف النص كما يلي:

 

تقوم بجمع الكثير من نماذج النصوص المصنفة لكل فصل (مجموعة البيانات الخاصة بك). ثم تقوم باستخراج بعض الميزات من عينات النص هذه. يتم بعد ذلك إدخال ميزات النص من الخطوة السابقة إلى جانب التسميات في خوارزمية التعلم الآلي. بعد عملية التعلم، ستحفظ نموذج المصنف الخاص بك للتنبؤات المستقبلية.

فرق واحد بين التعلم الآلي الكلاسيكي والتعلم العميق عندما يأتي التصنيف هو أنه في التعلم العميق، يتم استخراج الميزات وتصنيفها معًا ولكن في التعلم الآلي الكلاسيكي، عادة ما تكون مهمتان منفصلتان.

 

يعد الاستخراج المناسب للميزات جزءًا مهمًا من التعلم الآلي لتصنيف المستندات، وربما يكون أكثر أهمية من اختيار خوارزمية التصنيف الصحيحة. إذا لم تختر ميزات جيدة، فلا يمكنك توقع أن يعمل نموذجك جيدًا. قبل مناقشة المزيد من استخراج الميزات، دعنا نتحدث عن بعض طرق تمثيل النص لاستخراج الميزات.

يتكون المستند النصي من جمل تتكون بدورها من كلمات. السؤال الآن هو: كيف نمثلها بطريقة يمكن من خلالها استخراج الميزات بكفاءة؟

يمكن أن يعتمد تمثيل المستند على نموذجين:

  1. النماذج المنطقية القياسية: تستخدم هذه النماذج المنطق المنطقي وتستخدم نظرية المجموعة لاسترجاع المعلومات من النص. إنها غير فعالة مقارنة بنموذج الفضاء المتجه أدناه لأسباب عديدة وليست محور تركيزنا.

  2. نماذج الفضاء المتجه: تعتمد جميع طرق تمثيل النص الحالية تقريبًا على VSMs. هنا، يتم تمثيل المستندات كمتجهات.

دعونا نلقي نظرة على طريقتين يمكن من خلالهما تنفيذ نماذج الفضاء المتجه لاستخراج الميزات.

حقيبة الكلمات (BOW) مع TF-IDF

في نموذج حقيبة الكلمات، يتم تمثيل النص كحقيبة من كلماته. المثال أدناه سيوضح ذلك.

فيما يلي نموذجان للمستندات النصية:

(1) يحب Bofin مشاهدة الأفلام. راهول يحب الأفلام أيضًا.

(2) يحب Bofin أيضًا لعب الطاولة.

استنادًا إلى الوثيقتين النصيتين المذكورتين أعلاه، يمكننا إنشاء قائمة بالكلمات في المستندات على النحو التالي.

الآن إذا كنت تفكر في نموذج بسيط لـ Bag of words بتردد المصطلح (عدد المرات التي يظهر فيها المصطلح في النص)، فستكون قوائم الميزات للمثالين أعلاه،

(1)

 

(الثاني)

إن تكرار المصطلح البسيط مثل هذا لتوصيف النص ليس دائمًا فكرة جيدة. بالنسبة للمستندات النصية الكبيرة، نستخدم شيئًا يسمى تردد المصطلح - تردد المستند العكسي (tf-idf). tf-جيش الدفاع الإسرائيلي هو نتاج إحصائيتين، مصطلح التردد (قدم) وتردد المستند العكسي (جيش الدفاع الإسرائيلي). لقد رأينا للتو من المثال أعلاه ماذا tf هو، الآن دعونا نفهم جيش الدفاع الإسرائيلي. بعبارات بسيطة، جيش الدفاع الإسرائيلي هو مقياس لمدى شيوع الكلمة في جميع المستندات. في حالة تكرار وجود كلمة داخل مستند، سيكون لهذه الكلمة تردد عالي المدى، وإذا كانت تحدث أيضًا بشكل متكرر في غالبية المستندات، فسيكون لها تردد عكسي منخفض للمستندات. في الأساس، جيش الدفاع الإسرائيلي يساعدنا على تصفية كلمات مثل، i، والتي تحدث بشكل متكرر ولكنها ليست مهمة لتحديد تميز المستند.

تضمين الكلمات باستخدام word2vec

Word2vec هي تقنية شائعة لإنتاج عمليات تضمين الكلمات. وهي تستند إلى فكرة أن معنى الكلمة يمكن إدراكه من خلال الكلمات المحيطة بها (مثل المثل: «أخبرني من هم أصدقاؤك وسأخبرك من أنت»). وتنتج مساحة متجهة من مجموعة كبيرة، مع تخصيص متجه مقابل لكل كلمة فريدة في المجموعة في مساحة المتجه. قلب word2vec عبارة عن شبكة عصبية ذات طبقتين يتم تدريبها على نمذجة السياق اللغوي للكلمات مثل الكلمات التي تشترك في سياقات مشتركة في المستند تكون قريبة جدًا داخل مساحة المتجه.

يستخدم Word2vec بنيتين للتمثيل. يمكنك (بشكل فضفاض) التفكير في إنشاء نموذج word2vec كعملية تتكون من معالجة كل كلمة في مستند بأي من هذه الطرق.

  1. حقيبة الكلمات المستمرة (CBOW): في هذه البنية، يتنبأ النموذج بالكلمة الحالية من سياقها (الكلمات المحيطة داخل حجم النافذة المحدد)
  2. سكيب جرام: في هذه البنية، يستخدم النموذج الكلمة الحالية للتنبؤ بالسياق.

أظهرت نماذج Word2vec المدربة على مجموعات نصية كبيرة (مثل ويكيبيديا الإنجليزية بأكملها) أنها تفهم بعض العلاقات المثيرة للاهتمام بين الكلمات كما هو موضح أدناه.

An example of word2vec models trained on large corpora, capturing interesting relationships among words. Here, not only the countries and their capitals cluster in two groups, the distance in vector space between them are also similar. Image source: DL4J
مثال لنماذج word2vec المدربة على الشركات الكبيرة، والتي تلتقط العلاقات المثيرة للاهتمام بين الكلمات. هنا، لا تتجمع البلدان وعواصمها في مجموعتين فحسب، بل تتشابه المسافة في مساحة المتجهات بينها أيضًا. مصدر الصورة: DL4J

باتباع نماذج الفضاء المتجه هذه، حققت الأساليب التي تستخدم التعلم العميق تقدمًا في تمثيلات النص. يمكن تصنيفها على نطاق واسع على أنها إما مناهج قائمة على الشبكة العصبية التلافيفية أو مناهج قائمة على الشبكة العصبية المتكررة (وخلفائها LSTM/GRU).

تم العثور على الشبكات العصبية التلافيفية (ConvNets) مثيرة للإعجاب لتطبيقات رؤية الكمبيوتر، وخاصة لتصنيف الصور. أظهرت الأبحاث الحديثة التي تستكشف ConvNets لمهام معالجة اللغة الطبيعية نتائج واعدة لتصنيف النصوص، مثل شار سي إن حيث يتم التعامل مع النص كنوع من الإشارات الأولية على مستوى الحرف، وتطبيق شبكات ConvNets الزمنية (أحادية البعد) عليه.

قد تكون الشبكة العصبية المتكررة ومشتقاتها أكثر البنى العصبية شهرة عند تقاطع التعلم العميق ومعالجة اللغة الطبيعية. يمكن لـ RNNs استخدام ذاكرتها الداخلية لمعالجة تسلسلات الإدخال، مما يجعلها بنية جيدة للعديد من مهام معالجة اللغة الطبيعية.

على الرغم من أن الأساليب القائمة على الشبكة العصبية المستقيمة لتصنيف النص كانت فعالة للغاية، فقد لوحظ أنه يمكن الحصول على تمثيلات أفضل من خلال تضمين المعرفة ببنية المستند في بنية النموذج. تم تصور هذه الفكرة من الفطرة السليمة التي تقول،

  • ليس كل جزء من المستند مناسبًا بنفس القدر للإجابة على استعلام منه.
  • يتضمن العثور على الأقسام ذات الصلة في المستند نمذجة تفاعلات الكلمات، وليس فقط وجودها بمعزل عن غيرها.

سنستكشف أحد هذه الأساليب حيث يتم دمج آليات الانتباه على مستوى الكلمات والجمل لتصنيف المستندات بشكل أفضل.

تطبيق الاهتمام الهرمي على النصوص

هناك رؤيتان أساسيتان من الطرق التقليدية التي ناقشناها حتى الآن على عكس طرق الانتباه الهرمي:

  1. الكلمات تشكل الجمل والجمل تشكل المستندات. وبشكل أساسي، تحتوي الوثائق على هيكل هرمي ويمكن أن يكون التمثيل الذي يلتقط هذا الهيكل أكثر فعالية.
  2. الكلمات والجمل المختلفة في المستند مفيدة بدرجات مختلفة.

لتوضيح ذلك، دعنا ننظر إلى المثال أدناه:

في مراجعة المطعم هذه، تقدم الجملة الثالثة معنى قويًا (المشاعر الإيجابية) وتساهم الكلمات المذهلة والرائعة بشكل أكبر في تحديد المشاعر في الجملة.

الآن دعونا نلقي نظرة على كيفية تصميم شبكات الانتباه الهرمية لتصنيف المستندات. كما قلت سابقًا، تتضمن هذه النماذج مستويين من الاهتمام، أحدهما على مستوى الكلمة والآخر على مستوى الجملة. يسمح هذا للنموذج بإيلاء اهتمام أقل أو أكثر للكلمات والجمل الفردية وفقًا لذلك عند إنشاء تمثيل المستند.

شبكة الانتباه الهرمية (هان) يتكون من عدة أجزاء،

  1. مشفر تسلسل الكلمات
  2. طبقة انتباه على مستوى الكلمة
  3. مشفر الجملة
  4. طبقة انتباه على مستوى الجملة

قبل استكشافها واحدة تلو الأخرى، دعونا نفهم قليلاً عن مشفر التسلسل المستند إلى GRU، والذي يمثل جوهر الكلمة ومشفر الجملة لهذه البنية.

الوحدات المتكررة المسورة أو GRU هي نوع مختلف من LSTMs (شبكات الذاكرة طويلة المدى) والتي هي في الواقع نوع من الشبكات العصبية المتكررة. إذا لم تكن على دراية بـ LSTMs، أقترح عليك القراءة هذه مقال رائع.

على عكس LSTM، تستخدم GRU آلية بوابة لتتبع حالة التسلسلات دون استخدام خلايا ذاكرة منفصلة. هناك نوعان من البوابات، بوابة إعادة الضبط وبوابة التحديث. يتحكمون معًا في كيفية تحديث المعلومات إلى الدولة.

راجع الرسم البياني أعلاه للحصول على الرموز المستخدمة في المحتوى التالي.

1. مشفر الكلمات

يتم استخدام GRU ثنائي الاتجاه للحصول على تعليقات توضيحية للكلمات من خلال تلخيص المعلومات من كلا الاتجاهين للكلمات وبالتالي دمج المعلومات السياقية.

 

أين xهي هو متجه الكلمة المقابل للكلمة ثذلك. ونحن مصفوفة التضمين.

نحصل على تعليق توضيحي لكلمة معينة ثهي من خلال ربط الحالة المخفية الأمامية والحالة المخفية الخلفية،

 

2. الاهتمام بالكلمة

لا تساهم كل الكلمات بالتساوي في معنى الجملة. لذلك نحتاج إلى آلية انتباه لاستخراج مثل هذه الكلمات المهمة لمعنى الجملة وتجميع تمثيل تلك الكلمات المفيدة لتشكيل متجه الجملة.

 

في البداية، نقوم بتغذية كلمة التعليق التوضيحي حهي من خلال MLP من طبقة واحدة للحصول عليها شهي (يسمى متجه السياق على مستوى الكلمة) كتمثيل مخفي لـ حذلك. ثم نحصل على الأهمية ناقل (؟) كما هو موضح في المعادلة أعلاه. متجه السياق هو في الأساس تمثيل عالي المستوى لمدى أهمية الكلمة في الجملة المعينة وتعلمها أثناء عملية التدريب.

3. مشفر الجملة

على غرار كلمة التشفير، نستخدم هنا GRU ثنائي الاتجاه لترميز الجمل.

 

الحالات المخفية للأمام والخلف هي حسابات تتم على غرار كلمة التشفير والحالة المخفية. يتم الحصول على h من خلال ربطها على النحو التالي،

 

الآن الدولة المخفية حأنا يلخص الجمل المجاورة حول الجملة ولكن ما زلت مع التركيز على i.

4. الانتباه إلى الجملة

لمكافأة الجمل التي تعتبر أدلة لتصنيف المستند بشكل صحيح، نستخدم مرة أخرى آلية الانتباه على مستوى الجملة.

 

على غرار متجه سياق الكلمة، نقدم هنا أيضًا متجه السياق على مستوى الجملة شق.

الآن متجه المستند v هو تمثيل عالي المستوى للوثيقة ويمكن استخدامه كميزات لتصنيف المستندات.

لذلك رأينا كيف يمكن استخدام بنية المستند والانتباه كميزات للتصنيف. في الدراسات المعيارية، تفوقت هذه الطريقة على الأساليب الشائعة الحالية بهامش لائق في مجموعات البيانات الشائعة مثل Yelp Reviews و IMDB و Yahoo Answers.

أخبرنا برأيك في شبكات الانتباه في قسم المناقشة أدناه ولا تتردد في طرح استفساراتك.

 

Author

Predict Cyber threats against your organization

Related Posts

حراس العلامة التجارية الخاصة بك: الغوص العميق في خدمات الإزالة في CloudSek

اكتشف كيف تحمي خدمات الإزالة الشاملة من CloudSek علامتك التجارية من التهديدات عبر الإنترنت.

Blog Image
September 5, 2022

كيف تستغل الجهات الفاعلة في مجال التهديد Android Webview

كيف تستغل الجهات الفاعلة في مجال التهديد Android Webview

Blog Image
November 28, 2020

الاستفادة من STIX و TAXII لتحسين استخبارات التهديدات السيبرانية (الجزء 1)

الاستفادة من STIX و TAXII لتحسين استخبارات التهديدات السيبرانية (الجزء 1)

انضم إلى أكثر من 10,000 مشترك

تابع آخر الأخبار حول سلالات البرامج الضارة، وأساليب التصيد الاحتيالي،
مؤشرات التسوية وتسريب البيانات.

Take action now

Secure your organisation with our Award winning Products

CloudSEK Platform is a no-code platform that powers our products with predictive threat analytic capabilities.

Table of Content

بقلم بوفين بابو، قائد التعلم الآلي

يعد تصنيف النص مهمة مهمة في معالجة اللغة الطبيعية حيث يتم تعيين فئات محددة مسبقًا للمستندات النصية. في هذه المقالة، سوف نستكشف الأساليب الحديثة لتصنيف النص التي تأخذ في الاعتبار بنية المستند بالإضافة إلى الاهتمام على مستوى الجملة.

بشكل عام، يكون سير عمل تصنيف النص كما يلي:

 

تقوم بجمع الكثير من نماذج النصوص المصنفة لكل فصل (مجموعة البيانات الخاصة بك). ثم تقوم باستخراج بعض الميزات من عينات النص هذه. يتم بعد ذلك إدخال ميزات النص من الخطوة السابقة إلى جانب التسميات في خوارزمية التعلم الآلي. بعد عملية التعلم، ستحفظ نموذج المصنف الخاص بك للتنبؤات المستقبلية.

فرق واحد بين التعلم الآلي الكلاسيكي والتعلم العميق عندما يأتي التصنيف هو أنه في التعلم العميق، يتم استخراج الميزات وتصنيفها معًا ولكن في التعلم الآلي الكلاسيكي، عادة ما تكون مهمتان منفصلتان.

 

يعد الاستخراج المناسب للميزات جزءًا مهمًا من التعلم الآلي لتصنيف المستندات، وربما يكون أكثر أهمية من اختيار خوارزمية التصنيف الصحيحة. إذا لم تختر ميزات جيدة، فلا يمكنك توقع أن يعمل نموذجك جيدًا. قبل مناقشة المزيد من استخراج الميزات، دعنا نتحدث عن بعض طرق تمثيل النص لاستخراج الميزات.

يتكون المستند النصي من جمل تتكون بدورها من كلمات. السؤال الآن هو: كيف نمثلها بطريقة يمكن من خلالها استخراج الميزات بكفاءة؟

يمكن أن يعتمد تمثيل المستند على نموذجين:

  1. النماذج المنطقية القياسية: تستخدم هذه النماذج المنطق المنطقي وتستخدم نظرية المجموعة لاسترجاع المعلومات من النص. إنها غير فعالة مقارنة بنموذج الفضاء المتجه أدناه لأسباب عديدة وليست محور تركيزنا.

  2. نماذج الفضاء المتجه: تعتمد جميع طرق تمثيل النص الحالية تقريبًا على VSMs. هنا، يتم تمثيل المستندات كمتجهات.

دعونا نلقي نظرة على طريقتين يمكن من خلالهما تنفيذ نماذج الفضاء المتجه لاستخراج الميزات.

حقيبة الكلمات (BOW) مع TF-IDF

في نموذج حقيبة الكلمات، يتم تمثيل النص كحقيبة من كلماته. المثال أدناه سيوضح ذلك.

فيما يلي نموذجان للمستندات النصية:

(1) يحب Bofin مشاهدة الأفلام. راهول يحب الأفلام أيضًا.

(2) يحب Bofin أيضًا لعب الطاولة.

استنادًا إلى الوثيقتين النصيتين المذكورتين أعلاه، يمكننا إنشاء قائمة بالكلمات في المستندات على النحو التالي.

الآن إذا كنت تفكر في نموذج بسيط لـ Bag of words بتردد المصطلح (عدد المرات التي يظهر فيها المصطلح في النص)، فستكون قوائم الميزات للمثالين أعلاه،

(1)

 

(الثاني)

إن تكرار المصطلح البسيط مثل هذا لتوصيف النص ليس دائمًا فكرة جيدة. بالنسبة للمستندات النصية الكبيرة، نستخدم شيئًا يسمى تردد المصطلح - تردد المستند العكسي (tf-idf). tf-جيش الدفاع الإسرائيلي هو نتاج إحصائيتين، مصطلح التردد (قدم) وتردد المستند العكسي (جيش الدفاع الإسرائيلي). لقد رأينا للتو من المثال أعلاه ماذا tf هو، الآن دعونا نفهم جيش الدفاع الإسرائيلي. بعبارات بسيطة، جيش الدفاع الإسرائيلي هو مقياس لمدى شيوع الكلمة في جميع المستندات. في حالة تكرار وجود كلمة داخل مستند، سيكون لهذه الكلمة تردد عالي المدى، وإذا كانت تحدث أيضًا بشكل متكرر في غالبية المستندات، فسيكون لها تردد عكسي منخفض للمستندات. في الأساس، جيش الدفاع الإسرائيلي يساعدنا على تصفية كلمات مثل، i، والتي تحدث بشكل متكرر ولكنها ليست مهمة لتحديد تميز المستند.

تضمين الكلمات باستخدام word2vec

Word2vec هي تقنية شائعة لإنتاج عمليات تضمين الكلمات. وهي تستند إلى فكرة أن معنى الكلمة يمكن إدراكه من خلال الكلمات المحيطة بها (مثل المثل: «أخبرني من هم أصدقاؤك وسأخبرك من أنت»). وتنتج مساحة متجهة من مجموعة كبيرة، مع تخصيص متجه مقابل لكل كلمة فريدة في المجموعة في مساحة المتجه. قلب word2vec عبارة عن شبكة عصبية ذات طبقتين يتم تدريبها على نمذجة السياق اللغوي للكلمات مثل الكلمات التي تشترك في سياقات مشتركة في المستند تكون قريبة جدًا داخل مساحة المتجه.

يستخدم Word2vec بنيتين للتمثيل. يمكنك (بشكل فضفاض) التفكير في إنشاء نموذج word2vec كعملية تتكون من معالجة كل كلمة في مستند بأي من هذه الطرق.

  1. حقيبة الكلمات المستمرة (CBOW): في هذه البنية، يتنبأ النموذج بالكلمة الحالية من سياقها (الكلمات المحيطة داخل حجم النافذة المحدد)
  2. سكيب جرام: في هذه البنية، يستخدم النموذج الكلمة الحالية للتنبؤ بالسياق.

أظهرت نماذج Word2vec المدربة على مجموعات نصية كبيرة (مثل ويكيبيديا الإنجليزية بأكملها) أنها تفهم بعض العلاقات المثيرة للاهتمام بين الكلمات كما هو موضح أدناه.

An example of word2vec models trained on large corpora, capturing interesting relationships among words. Here, not only the countries and their capitals cluster in two groups, the distance in vector space between them are also similar. Image source: DL4J
مثال لنماذج word2vec المدربة على الشركات الكبيرة، والتي تلتقط العلاقات المثيرة للاهتمام بين الكلمات. هنا، لا تتجمع البلدان وعواصمها في مجموعتين فحسب، بل تتشابه المسافة في مساحة المتجهات بينها أيضًا. مصدر الصورة: DL4J

باتباع نماذج الفضاء المتجه هذه، حققت الأساليب التي تستخدم التعلم العميق تقدمًا في تمثيلات النص. يمكن تصنيفها على نطاق واسع على أنها إما مناهج قائمة على الشبكة العصبية التلافيفية أو مناهج قائمة على الشبكة العصبية المتكررة (وخلفائها LSTM/GRU).

تم العثور على الشبكات العصبية التلافيفية (ConvNets) مثيرة للإعجاب لتطبيقات رؤية الكمبيوتر، وخاصة لتصنيف الصور. أظهرت الأبحاث الحديثة التي تستكشف ConvNets لمهام معالجة اللغة الطبيعية نتائج واعدة لتصنيف النصوص، مثل شار سي إن حيث يتم التعامل مع النص كنوع من الإشارات الأولية على مستوى الحرف، وتطبيق شبكات ConvNets الزمنية (أحادية البعد) عليه.

قد تكون الشبكة العصبية المتكررة ومشتقاتها أكثر البنى العصبية شهرة عند تقاطع التعلم العميق ومعالجة اللغة الطبيعية. يمكن لـ RNNs استخدام ذاكرتها الداخلية لمعالجة تسلسلات الإدخال، مما يجعلها بنية جيدة للعديد من مهام معالجة اللغة الطبيعية.

على الرغم من أن الأساليب القائمة على الشبكة العصبية المستقيمة لتصنيف النص كانت فعالة للغاية، فقد لوحظ أنه يمكن الحصول على تمثيلات أفضل من خلال تضمين المعرفة ببنية المستند في بنية النموذج. تم تصور هذه الفكرة من الفطرة السليمة التي تقول،

  • ليس كل جزء من المستند مناسبًا بنفس القدر للإجابة على استعلام منه.
  • يتضمن العثور على الأقسام ذات الصلة في المستند نمذجة تفاعلات الكلمات، وليس فقط وجودها بمعزل عن غيرها.

سنستكشف أحد هذه الأساليب حيث يتم دمج آليات الانتباه على مستوى الكلمات والجمل لتصنيف المستندات بشكل أفضل.

تطبيق الاهتمام الهرمي على النصوص

هناك رؤيتان أساسيتان من الطرق التقليدية التي ناقشناها حتى الآن على عكس طرق الانتباه الهرمي:

  1. الكلمات تشكل الجمل والجمل تشكل المستندات. وبشكل أساسي، تحتوي الوثائق على هيكل هرمي ويمكن أن يكون التمثيل الذي يلتقط هذا الهيكل أكثر فعالية.
  2. الكلمات والجمل المختلفة في المستند مفيدة بدرجات مختلفة.

لتوضيح ذلك، دعنا ننظر إلى المثال أدناه:

في مراجعة المطعم هذه، تقدم الجملة الثالثة معنى قويًا (المشاعر الإيجابية) وتساهم الكلمات المذهلة والرائعة بشكل أكبر في تحديد المشاعر في الجملة.

الآن دعونا نلقي نظرة على كيفية تصميم شبكات الانتباه الهرمية لتصنيف المستندات. كما قلت سابقًا، تتضمن هذه النماذج مستويين من الاهتمام، أحدهما على مستوى الكلمة والآخر على مستوى الجملة. يسمح هذا للنموذج بإيلاء اهتمام أقل أو أكثر للكلمات والجمل الفردية وفقًا لذلك عند إنشاء تمثيل المستند.

شبكة الانتباه الهرمية (هان) يتكون من عدة أجزاء،

  1. مشفر تسلسل الكلمات
  2. طبقة انتباه على مستوى الكلمة
  3. مشفر الجملة
  4. طبقة انتباه على مستوى الجملة

قبل استكشافها واحدة تلو الأخرى، دعونا نفهم قليلاً عن مشفر التسلسل المستند إلى GRU، والذي يمثل جوهر الكلمة ومشفر الجملة لهذه البنية.

الوحدات المتكررة المسورة أو GRU هي نوع مختلف من LSTMs (شبكات الذاكرة طويلة المدى) والتي هي في الواقع نوع من الشبكات العصبية المتكررة. إذا لم تكن على دراية بـ LSTMs، أقترح عليك القراءة هذه مقال رائع.

على عكس LSTM، تستخدم GRU آلية بوابة لتتبع حالة التسلسلات دون استخدام خلايا ذاكرة منفصلة. هناك نوعان من البوابات، بوابة إعادة الضبط وبوابة التحديث. يتحكمون معًا في كيفية تحديث المعلومات إلى الدولة.

راجع الرسم البياني أعلاه للحصول على الرموز المستخدمة في المحتوى التالي.

1. مشفر الكلمات

يتم استخدام GRU ثنائي الاتجاه للحصول على تعليقات توضيحية للكلمات من خلال تلخيص المعلومات من كلا الاتجاهين للكلمات وبالتالي دمج المعلومات السياقية.

 

أين xهي هو متجه الكلمة المقابل للكلمة ثذلك. ونحن مصفوفة التضمين.

نحصل على تعليق توضيحي لكلمة معينة ثهي من خلال ربط الحالة المخفية الأمامية والحالة المخفية الخلفية،

 

2. الاهتمام بالكلمة

لا تساهم كل الكلمات بالتساوي في معنى الجملة. لذلك نحتاج إلى آلية انتباه لاستخراج مثل هذه الكلمات المهمة لمعنى الجملة وتجميع تمثيل تلك الكلمات المفيدة لتشكيل متجه الجملة.

 

في البداية، نقوم بتغذية كلمة التعليق التوضيحي حهي من خلال MLP من طبقة واحدة للحصول عليها شهي (يسمى متجه السياق على مستوى الكلمة) كتمثيل مخفي لـ حذلك. ثم نحصل على الأهمية ناقل (؟) كما هو موضح في المعادلة أعلاه. متجه السياق هو في الأساس تمثيل عالي المستوى لمدى أهمية الكلمة في الجملة المعينة وتعلمها أثناء عملية التدريب.

3. مشفر الجملة

على غرار كلمة التشفير، نستخدم هنا GRU ثنائي الاتجاه لترميز الجمل.

 

الحالات المخفية للأمام والخلف هي حسابات تتم على غرار كلمة التشفير والحالة المخفية. يتم الحصول على h من خلال ربطها على النحو التالي،

 

الآن الدولة المخفية حأنا يلخص الجمل المجاورة حول الجملة ولكن ما زلت مع التركيز على i.

4. الانتباه إلى الجملة

لمكافأة الجمل التي تعتبر أدلة لتصنيف المستند بشكل صحيح، نستخدم مرة أخرى آلية الانتباه على مستوى الجملة.

 

على غرار متجه سياق الكلمة، نقدم هنا أيضًا متجه السياق على مستوى الجملة شق.

الآن متجه المستند v هو تمثيل عالي المستوى للوثيقة ويمكن استخدامه كميزات لتصنيف المستندات.

لذلك رأينا كيف يمكن استخدام بنية المستند والانتباه كميزات للتصنيف. في الدراسات المعيارية، تفوقت هذه الطريقة على الأساليب الشائعة الحالية بهامش لائق في مجموعات البيانات الشائعة مثل Yelp Reviews و IMDB و Yahoo Answers.

أخبرنا برأيك في شبكات الانتباه في قسم المناقشة أدناه ولا تتردد في طرح استفساراتك.

 

Related Blogs