🚀 لقد رفعت CloudSek جولة B1 من السلسلة B1 بقيمة 19 مليون دولار - تعزيز مستقبل الأمن السيبراني التنبؤي
اقرأ المزيد
قم بحماية مؤسستك من التهديدات الخارجية مثل تسرب البيانات وتهديدات العلامة التجارية والتهديدات الناشئة عن الويب المظلم والمزيد. حدد موعدًا لعرض تجريبي اليوم!
Schedule a Demo
غالبًا ما يتم انتقاد نماذج التعلم العميق لكونها معقدة وغير شفافة. يطلق عليها اسم الصناديق السوداء لأنها تقدم تنبؤات ورؤى، ولكن من الصعب فهم المنطق وراء مخرجاتها. نظرًا للشبكات العصبية غير الخطية المعقدة متعددة الطبقات، يجد علماء البيانات صعوبة في التأكد من عوامل أو أسباب تنبؤ معين.
إن عدم الوضوح هذا يجعل الناس حذرين من اتخاذ قرارات مهمة بناءً على مخرجات النماذج. كبشر، نثق بما نفهمه؛ ما يمكننا التحقق منه. ومع مرور الوقت، خدمنا هذا جيدًا. لذا، فإن القدرة على إظهار كيفية قيام النماذج بحل مشكلة لإنتاج رؤى، ستساعد في بناء الثقة، حتى بين الأشخاص الذين لديهم معرفة سريعة بعلوم البيانات.
ولتحقيق ذلك، لا بد من تطوير أساليب حسابية يمكنها تفسير هذه النماذج وتدقيقها وتصحيحها. يعد تصحيح الأخطاء أمرًا ضروريًا لفهم كيفية تحديد النماذج للأنماط وإنشاء التنبؤات. سيساعدنا هذا أيضًا في تحديد الأخطاء والعيوب وتصحيحها.
في هذه المقالة، نتعمق في الطرق المختلفة المستخدمة لتصحيح نماذج التعلم الآلي.
تُعرف أيضًا باسم أهمية ميزة التبديل، وهي خوارزمية تحسب حساسية النموذج للتبديل/التعديلات في قيم الميزة. في الأساس، تقوم أهمية الميزة بتقييم كل ميزة من ميزات بياناتك وتقييمها بناءً على ملاءمتها أو أهميتها تجاه المخرجات. على الرغم من أهمية ميزة التبديل، إلا أنها تقيس كل ميزة من سمات البيانات بعد تغييرها، وتسجلها بناءً على أهميتها في توليد المخرجات.
على سبيل المثال، دعنا نقوم بتبديل قيم عمود واحد أو خلطها عشوائيًا في مجموعة بيانات التحقق مع سلامة جميع الأعمدة الأخرى. إذا انخفضت دقة النموذج بشكل كبير وتسببت في زيادة الخطأ، فإن هذه الميزة تعتبر «مهمة». من ناحية أخرى، تعتبر الميزة «غير مهمة» إذا كان خلط قيمها لا يؤثر على دقة النموذج.
إيلي 5 هي مكتبة Python التي تساعد العديد من أطر ML وتساعد على تصور المربعات السوداء وتصحيحها بسهولة باستخدام واجهة برمجة تطبيقات موحدة. يساعد على حساب أهمية التقليب. ولكن تجدر الإشارة إلى أن أهمية التبديل يتم حسابه فقط على بيانات الاختبار بعد إنشاء النموذج.
بعد أن يصبح نموذجنا جاهزًا، نقوم باستيراد ELI5 لحساب أهمية التبديل.
يظهر الإخراج الخاص بالرمز أعلاه أدناه:
الميزات الموجودة في الأعلى هي الأكثر أهمية، مما يعني أن أي تعديلات يتم إجراؤها على هذه القيم ستقلل من دقة النموذج بشكل كبير. الميزات الموجودة في أسفل القائمة غير مهمة لأن أي تبديل يتم إجراؤه على قيمها لن يقلل من دقة النموذج. في هذا المثال، كانت OverallQual هي الميزة الأكثر أهمية.
Grad-cam هي تقنية تنتج تفسيرات مرئية للمخرجات لتقديم نماذج شفافة تعتمد على الشبكة العصبية التلافيفية (CNN). يفحص معلومات التدرج التي تتدفق إلى الطبقة النهائية من الشبكة العصبية لفهم المخرجات. يمكن استخدام Grad-cam لتصنيف الصور والتعليق على الصور والإجابة المرئية على الأسئلة. الإخراج الذي يوفره Grad-Cam هو تصور خريطة الحرارة، والذي يُستخدم للتحقق بصريًا من أن النموذج الخاص بك مدرب على النظر إلى الأنماط الصحيحة في الصورة.
SHAP هو نهج نظري للعبة يهدف إلى شرح التنبؤ من خلال حساب أهمية كل ميزة تجاه هذا التنبؤ. تستخدم مكتبة SHAP قيم Shapley في جوهرها وتشرح التنبؤات الفردية. قدم لويد شابلي مفهوم Shapley في عام 1953 وتم تطبيقه لاحقًا في مجال التعلم الآلي.
يتم اشتقاق قيم Shapley من نظرية الألعاب، حيث تكون كل ميزة في البيانات لاعبًا، والمكافأة النهائية هي التنبؤ. اعتمادًا على مساهمتهم في المكافأة، تخبرنا قيم Shapley بكيفية توزيع هذه المكافأة بشكل عادل بين اللاعبين.
نحن نستخدم SHAP كثيرًا، خاصة بالنسبة للنماذج التي تكون فيها القابلية للتفسير أمرًا بالغ الأهمية. النتائج دقيقة للغاية حقًا.
يمكن لـ SHAP شرح ما يلي:
تحسب قيم Shapley أهمية الميزة من خلال مقارنة تنبؤين، أحدهما مع الميزة المضمنة والآخر بدونها. تؤثر قيم SHAP الإيجابية على متغير التنبؤ/الهدف بشكل إيجابي بينما تؤثر قيم SHAP السلبية على الهدف بشكل سلبي.
هنا مثال لشرح نفس الشيء. لهذا الغرض، آخذ مجموعة بيانات جودة النبيذ الأحمر من kaggle.
الآن، ننتج مخططات ذات أهمية متغيرة، والتي تسرد المتغير الأكثر أهمية بترتيب تنازلي. حيث سيساهم المتغير العلوي بشكل أكبر في النموذج.
في الشكل أعلاه، يتم رسم جميع المتغيرات بترتيب تنازلي. يمثل لون المتغيرات قيمة الميزة، سواء كانت عالية (باللون الأحمر) أو منخفضة (باللون الأزرق) في تلك الملاحظة. أ مرتفع مستوى محتوى «الكبريتات» مرتفع و إيجابي التأثير على تصنيف الجودة. يمثل المحور السيني التأثير «الإيجابي». وبالمثل، يمكننا القول أن «الكلوريدات» ترتبط سلبًا بالمتغير المستهدف.
الآن، أود أن أوضح لك كيف يتم حساب قيم SHAP في الحالات الفردية. ثم نقوم بتنفيذ هذه القيم على العديد من الملاحظات واختيار بعض الملاحظات بشكل عشوائي.
بعد اختيار الملاحظات العشوائية، نقوم بتهيئة دفتر الملاحظات الخاص بنا باستخدام initjs ().
شرح لبعض المصطلحات الموضحة في المخطط أعلاه:
لمزيد من المعلومات واختبار مهاراتك، تحقق من kaggle.
اكتشف كيف تحمي خدمات الإزالة الشاملة من CloudSek علامتك التجارية من التهديدات عبر الإنترنت.
كيف تستغل الجهات الفاعلة في مجال التهديد Android Webview
الاستفادة من STIX و TAXII لتحسين استخبارات التهديدات السيبرانية (الجزء 1)
Take action now
CloudSEK Platform is a no-code platform that powers our products with predictive threat analytic capabilities.
Digital Risk Protection platform which gives Initial Attack Vector Protection for employees and customers.
Software and Supply chain Monitoring providing Initial Attack Vector Protection for Software Supply Chain risks.
Creates a blueprint of an organization's external attack surface including the core infrastructure and the software components.
Instant Security Score for any Android Mobile App on your phone. Search for any app to get an instant risk score.