🚀 لقد رفعت CloudSek جولة B1 من السلسلة B1 بقيمة 19 مليون دولار - تعزيز مستقبل الأمن السيبراني التنبؤي
اقرأ المزيد
قم بحماية مؤسستك من التهديدات الخارجية مثل تسرب البيانات وتهديدات العلامة التجارية والتهديدات الناشئة عن الويب المظلم والمزيد. حدد موعدًا لعرض تجريبي اليوم!
Schedule a Demoبقلم بوفين بابو، قائد التعلم الآلي
يعد تصنيف النص مهمة مهمة في معالجة اللغة الطبيعية حيث يتم تعيين فئات محددة مسبقًا للمستندات النصية. في هذه المقالة، سوف نستكشف الأساليب الحديثة لتصنيف النص التي تأخذ في الاعتبار بنية المستند بالإضافة إلى الاهتمام على مستوى الجملة.
بشكل عام، يكون سير عمل تصنيف النص كما يلي:
تقوم بجمع الكثير من نماذج النصوص المصنفة لكل فصل (مجموعة البيانات الخاصة بك). ثم تقوم باستخراج بعض الميزات من عينات النص هذه. يتم بعد ذلك إدخال ميزات النص من الخطوة السابقة إلى جانب التسميات في خوارزمية التعلم الآلي. بعد عملية التعلم، ستحفظ نموذج المصنف الخاص بك للتنبؤات المستقبلية.
فرق واحد بين التعلم الآلي الكلاسيكي والتعلم العميق عندما يأتي التصنيف هو أنه في التعلم العميق، يتم استخراج الميزات وتصنيفها معًا ولكن في التعلم الآلي الكلاسيكي، عادة ما تكون مهمتان منفصلتان.
يعد الاستخراج المناسب للميزات جزءًا مهمًا من التعلم الآلي لتصنيف المستندات، وربما يكون أكثر أهمية من اختيار خوارزمية التصنيف الصحيحة. إذا لم تختر ميزات جيدة، فلا يمكنك توقع أن يعمل نموذجك جيدًا. قبل مناقشة المزيد من استخراج الميزات، دعنا نتحدث عن بعض طرق تمثيل النص لاستخراج الميزات.
يتكون المستند النصي من جمل تتكون بدورها من كلمات. السؤال الآن هو: كيف نمثلها بطريقة يمكن من خلالها استخراج الميزات بكفاءة؟
يمكن أن يعتمد تمثيل المستند على نموذجين:
النماذج المنطقية القياسية: تستخدم هذه النماذج المنطق المنطقي وتستخدم نظرية المجموعة لاسترجاع المعلومات من النص. إنها غير فعالة مقارنة بنموذج الفضاء المتجه أدناه لأسباب عديدة وليست محور تركيزنا.
نماذج الفضاء المتجه: تعتمد جميع طرق تمثيل النص الحالية تقريبًا على VSMs. هنا، يتم تمثيل المستندات كمتجهات.
دعونا نلقي نظرة على طريقتين يمكن من خلالهما تنفيذ نماذج الفضاء المتجه لاستخراج الميزات.
في نموذج حقيبة الكلمات، يتم تمثيل النص كحقيبة من كلماته. المثال أدناه سيوضح ذلك.
فيما يلي نموذجان للمستندات النصية:
(1) يحب Bofin مشاهدة الأفلام. راهول يحب الأفلام أيضًا.
(2) يحب Bofin أيضًا لعب الطاولة.
استنادًا إلى الوثيقتين النصيتين المذكورتين أعلاه، يمكننا إنشاء قائمة بالكلمات في المستندات على النحو التالي.
الآن إذا كنت تفكر في نموذج بسيط لـ Bag of words بتردد المصطلح (عدد المرات التي يظهر فيها المصطلح في النص)، فستكون قوائم الميزات للمثالين أعلاه،
(1)
(الثاني)
إن تكرار المصطلح البسيط مثل هذا لتوصيف النص ليس دائمًا فكرة جيدة. بالنسبة للمستندات النصية الكبيرة، نستخدم شيئًا يسمى تردد المصطلح - تردد المستند العكسي (tf-idf). tf-جيش الدفاع الإسرائيلي هو نتاج إحصائيتين، مصطلح التردد (قدم) وتردد المستند العكسي (جيش الدفاع الإسرائيلي). لقد رأينا للتو من المثال أعلاه ماذا tf هو، الآن دعونا نفهم جيش الدفاع الإسرائيلي. بعبارات بسيطة، جيش الدفاع الإسرائيلي هو مقياس لمدى شيوع الكلمة في جميع المستندات. في حالة تكرار وجود كلمة داخل مستند، سيكون لهذه الكلمة تردد عالي المدى، وإذا كانت تحدث أيضًا بشكل متكرر في غالبية المستندات، فسيكون لها تردد عكسي منخفض للمستندات. في الأساس، جيش الدفاع الإسرائيلي يساعدنا على تصفية كلمات مثل، i، والتي تحدث بشكل متكرر ولكنها ليست مهمة لتحديد تميز المستند.
Word2vec هي تقنية شائعة لإنتاج عمليات تضمين الكلمات. وهي تستند إلى فكرة أن معنى الكلمة يمكن إدراكه من خلال الكلمات المحيطة بها (مثل المثل: «أخبرني من هم أصدقاؤك وسأخبرك من أنت»). وتنتج مساحة متجهة من مجموعة كبيرة، مع تخصيص متجه مقابل لكل كلمة فريدة في المجموعة في مساحة المتجه. قلب word2vec عبارة عن شبكة عصبية ذات طبقتين يتم تدريبها على نمذجة السياق اللغوي للكلمات مثل الكلمات التي تشترك في سياقات مشتركة في المستند تكون قريبة جدًا داخل مساحة المتجه.
يستخدم Word2vec بنيتين للتمثيل. يمكنك (بشكل فضفاض) التفكير في إنشاء نموذج word2vec كعملية تتكون من معالجة كل كلمة في مستند بأي من هذه الطرق.
أظهرت نماذج Word2vec المدربة على مجموعات نصية كبيرة (مثل ويكيبيديا الإنجليزية بأكملها) أنها تفهم بعض العلاقات المثيرة للاهتمام بين الكلمات كما هو موضح أدناه.
باتباع نماذج الفضاء المتجه هذه، حققت الأساليب التي تستخدم التعلم العميق تقدمًا في تمثيلات النص. يمكن تصنيفها على نطاق واسع على أنها إما مناهج قائمة على الشبكة العصبية التلافيفية أو مناهج قائمة على الشبكة العصبية المتكررة (وخلفائها LSTM/GRU).
تم العثور على الشبكات العصبية التلافيفية (ConvNets) مثيرة للإعجاب لتطبيقات رؤية الكمبيوتر، وخاصة لتصنيف الصور. أظهرت الأبحاث الحديثة التي تستكشف ConvNets لمهام معالجة اللغة الطبيعية نتائج واعدة لتصنيف النصوص، مثل شار سي إن حيث يتم التعامل مع النص كنوع من الإشارات الأولية على مستوى الحرف، وتطبيق شبكات ConvNets الزمنية (أحادية البعد) عليه.
قد تكون الشبكة العصبية المتكررة ومشتقاتها أكثر البنى العصبية شهرة عند تقاطع التعلم العميق ومعالجة اللغة الطبيعية. يمكن لـ RNNs استخدام ذاكرتها الداخلية لمعالجة تسلسلات الإدخال، مما يجعلها بنية جيدة للعديد من مهام معالجة اللغة الطبيعية.
على الرغم من أن الأساليب القائمة على الشبكة العصبية المستقيمة لتصنيف النص كانت فعالة للغاية، فقد لوحظ أنه يمكن الحصول على تمثيلات أفضل من خلال تضمين المعرفة ببنية المستند في بنية النموذج. تم تصور هذه الفكرة من الفطرة السليمة التي تقول،
سنستكشف أحد هذه الأساليب حيث يتم دمج آليات الانتباه على مستوى الكلمات والجمل لتصنيف المستندات بشكل أفضل.
هناك رؤيتان أساسيتان من الطرق التقليدية التي ناقشناها حتى الآن على عكس طرق الانتباه الهرمي:
لتوضيح ذلك، دعنا ننظر إلى المثال أدناه:
في مراجعة المطعم هذه، تقدم الجملة الثالثة معنى قويًا (المشاعر الإيجابية) وتساهم الكلمات المذهلة والرائعة بشكل أكبر في تحديد المشاعر في الجملة.
الآن دعونا نلقي نظرة على كيفية تصميم شبكات الانتباه الهرمية لتصنيف المستندات. كما قلت سابقًا، تتضمن هذه النماذج مستويين من الاهتمام، أحدهما على مستوى الكلمة والآخر على مستوى الجملة. يسمح هذا للنموذج بإيلاء اهتمام أقل أو أكثر للكلمات والجمل الفردية وفقًا لذلك عند إنشاء تمثيل المستند.
شبكة الانتباه الهرمية (هان) يتكون من عدة أجزاء،
قبل استكشافها واحدة تلو الأخرى، دعونا نفهم قليلاً عن مشفر التسلسل المستند إلى GRU، والذي يمثل جوهر الكلمة ومشفر الجملة لهذه البنية.
الوحدات المتكررة المسورة أو GRU هي نوع مختلف من LSTMs (شبكات الذاكرة طويلة المدى) والتي هي في الواقع نوع من الشبكات العصبية المتكررة. إذا لم تكن على دراية بـ LSTMs، أقترح عليك القراءة هذه مقال رائع.
على عكس LSTM، تستخدم GRU آلية بوابة لتتبع حالة التسلسلات دون استخدام خلايا ذاكرة منفصلة. هناك نوعان من البوابات، بوابة إعادة الضبط وبوابة التحديث. يتحكمون معًا في كيفية تحديث المعلومات إلى الدولة.
راجع الرسم البياني أعلاه للحصول على الرموز المستخدمة في المحتوى التالي.
1. مشفر الكلمات
يتم استخدام GRU ثنائي الاتجاه للحصول على تعليقات توضيحية للكلمات من خلال تلخيص المعلومات من كلا الاتجاهين للكلمات وبالتالي دمج المعلومات السياقية.
أين xهي هو متجه الكلمة المقابل للكلمة ثذلك. ونحن مصفوفة التضمين.
نحصل على تعليق توضيحي لكلمة معينة ثهي من خلال ربط الحالة المخفية الأمامية والحالة المخفية الخلفية،
2. الاهتمام بالكلمة
لا تساهم كل الكلمات بالتساوي في معنى الجملة. لذلك نحتاج إلى آلية انتباه لاستخراج مثل هذه الكلمات المهمة لمعنى الجملة وتجميع تمثيل تلك الكلمات المفيدة لتشكيل متجه الجملة.
في البداية، نقوم بتغذية كلمة التعليق التوضيحي حهي من خلال MLP من طبقة واحدة للحصول عليها شهي (يسمى متجه السياق على مستوى الكلمة) كتمثيل مخفي لـ حذلك. ثم نحصل على الأهمية ناقل (؟) كما هو موضح في المعادلة أعلاه. متجه السياق هو في الأساس تمثيل عالي المستوى لمدى أهمية الكلمة في الجملة المعينة وتعلمها أثناء عملية التدريب.
3. مشفر الجملة
على غرار كلمة التشفير، نستخدم هنا GRU ثنائي الاتجاه لترميز الجمل.
الحالات المخفية للأمام والخلف هي حسابات تتم على غرار كلمة التشفير والحالة المخفية. يتم الحصول على h من خلال ربطها على النحو التالي،
الآن الدولة المخفية حأنا يلخص الجمل المجاورة حول الجملة ولكن ما زلت مع التركيز على i.
4. الانتباه إلى الجملة
لمكافأة الجمل التي تعتبر أدلة لتصنيف المستند بشكل صحيح، نستخدم مرة أخرى آلية الانتباه على مستوى الجملة.
على غرار متجه سياق الكلمة، نقدم هنا أيضًا متجه السياق على مستوى الجملة شق.
الآن متجه المستند v هو تمثيل عالي المستوى للوثيقة ويمكن استخدامه كميزات لتصنيف المستندات.
لذلك رأينا كيف يمكن استخدام بنية المستند والانتباه كميزات للتصنيف. في الدراسات المعيارية، تفوقت هذه الطريقة على الأساليب الشائعة الحالية بهامش لائق في مجموعات البيانات الشائعة مثل Yelp Reviews و IMDB و Yahoo Answers.
أخبرنا برأيك في شبكات الانتباه في قسم المناقشة أدناه ولا تتردد في طرح استفساراتك.
اكتشف كيف تحمي خدمات الإزالة الشاملة من CloudSek علامتك التجارية من التهديدات عبر الإنترنت.
كيف تستغل الجهات الفاعلة في مجال التهديد Android Webview
الاستفادة من STIX و TAXII لتحسين استخبارات التهديدات السيبرانية (الجزء 1)
Take action now
CloudSEK Platform is a no-code platform that powers our products with predictive threat analytic capabilities.
Digital Risk Protection platform which gives Initial Attack Vector Protection for employees and customers.
Software and Supply chain Monitoring providing Initial Attack Vector Protection for Software Supply Chain risks.
Creates a blueprint of an organization's external attack surface including the core infrastructure and the software components.
Instant Security Score for any Android Mobile App on your phone. Search for any app to get an instant risk score.