🚀 أصبحت CloudSek أول شركة للأمن السيبراني من أصل هندي تتلقى استثمارات منها ولاية أمريكية صندوق
اقرأ المزيد

تعد نماذج التعلم الآلي (ML) ضرورية لتحديد الأنماط وإجراء تنبؤات موثوقة. وفي كلاود سيك، تم تدريب نماذجنا لاستخلاص مثل هذه التنبؤات عبر البيانات التي تم جمعها من أكثر من 1000 مصدر. مع وجود أكثر من 50 طرازًا مختلفًا قيد الإنتاج، تعد مراقبة نماذج التعلم الآلي هذه مهمة شاقة ولا غنى عنها.
تتكون دورة حياة تطوير التعلم الآلي من نماذج التدريب والاختبار ونشرها في الإنتاج ومراقبتها لتحسين الدقة. قد يؤدي الافتقار إلى المراقبة الكافية إلى تنبؤات غير دقيقة ونماذج قديمة ووجود أخطاء غير ملحوظة فيها.
يعمل فريق هندسة البيانات في CloudSek مع علماء البيانات لنشر نماذج ML وتتبع أدائها باستمرار. ولتحقيق ذلك، نضمن استيفاء المتطلبات التالية:
في CloudSek، تقوم نماذج التعلم الآلي المختلفة وإصداراتها المتعددة بتصنيف المستند عبر مراحل مختلفة. حيث يتم تنبيه العميل فقط إلى النتائج الأكثر دقة من النماذج الفعالة أو مجموعة النتائج من خلال الجمع بين الإصدارات المختلفة.
تتكون جميع وحدات التعلم الآلي في جوهرها من جزأين. يعتمد إخراج وحدة ML على كلا المكونين التاليين:
كقاعدة أساسية، تعتبر أي تعديلات مهمة يتم إجراؤها على هذين المكونين بمثابة ترقية للإصدار. ومع ذلك، فإن التغييرات الطفيفة أو إصلاحات الأخطاء أو حتى إضافات القواعد الثابتة لا تؤدي إلى الترقية، وتعتبر ببساطة تحديثات التعليمات البرمجية العادية، والتي نتتبعها عبر Git.
بشكل عام، تتم استضافة نماذج التعلم الآلي على حاويات docker عديمة الحالة. تستمع هذه النماذج الحاوية إلى قوائم انتظار الرسائل بمجرد تشغيل حاوية عامل الإرساء على النظام. تحتفظ الحاوية بملف تكوين يحتوي على معلومات حول نوع النماذج وإصداراتها وما إذا كانت هذه النماذج مخصصة للإنتاج.
عندما يتم إنشاء حاوية docker، يمكنك تمرير أحدث مستودع Git git commit hash إليها، ليتم تعيينها كمتغير بيئة. يوضح الرسم التخطيطي تدفق البيانات بين نماذج ML وإصداراتها المختلفة:

عند تشغيل الحاوية، يتم استهلاك البيانات من قائمة انتظار الرسائل. يحدد اسم الطراز الموجود في ملف التكوين البيانات التي يتم استهلاكها. بمجرد معالجتها، يتم إرجاع التنبؤات كقاموس يتم الاحتفاظ به بعد ذلك في قاعدة بيانات.
يمكن لوحدات ML أيضًا إرجاع البيانات الوصفية الاختيارية التي تحتوي على معلومات مثل درجات التنبؤ الفعلية والوظائف التي يتم تشغيلها في الداخل وما إلى ذلك.
فيما يلي عينة من المستند بعد معالجة النتائج من جميع النماذج:
{
«معرف المستند»: «root-001 #96bfac5a46"،
«مرحلة_التصنيفات_1_clf_v0": {
«الإجابة»: «صفحة الويب المشتبه في أنها مشوهة»،
«content_meta»: خالية،
«وقت التشغيل»: إيزوديت («2019-12-24T 14:54:09.892 Z»)،
«commit_hash»: «6f8e8033"
}،
«مرحلة_التصنيفات_2_clf_v0": {
«الإجابة»: {
«السبب»: فارغ،
«النوع»: «عدم التهديد»،
«الخطورة»: خالية
}،
«content_meta»: خالية،
«وقت التشغيل»: إيزوديت («2019-12-24T 15:40:46.245 Z»)،
«commit_hash»: فارغ
}،
«مرحلة_التصنيفات_2_clf_v1": {
«الإجابة»: {
«السبب»: فارغ،
«النوع»: «عدم التهديد»،
«الخطورة»: خالية
}،
«content_meta»: خالية،
«وقت التشغيل»: إيزوديت («2019-12-24T 15:40:46.245 Z»)،
«commit_hash»: فارغ
}
}
تتيح لنا هذه العملية العثور، لأي مستند معين، على الحالة الدقيقة لجميع النماذج التي صنفت مستندًا معينًا. يمكننا التراجع بين إصدارات النموذج والتغيير الطفيف في القيمة المقدمة في ملف التكوين يجب أن يسمح لنا بتعيين نموذج الإنتاج الرئيسي بعيدًا عن نماذج الاختبار.
يمكن الاستفادة من مثيل Metabase لتصور المقاييس الرئيسية وأداء كل مصنف على لوحة معلومات. قد تحتوي أيضًا على تفاصيل حول المستندات التي تتم معالجتها بواسطة كل نموذج، أو عدد المستندات التي تم تصنيفها بالفئة X والفئة Y وما إلى ذلك (في حالة مهام التصنيف) والمزيد.

تسمح المراقبة أيضًا لعلماء البيانات بدراسة ومقارنة نتائج الإصدارات المختلفة من النماذج، بالنظر إلى أنه يتم استرداد تفاصيل مخرجات الإصدار. تزودهم هذه البيانات بمجموعة من المستندات التي تكشف عن المخرجات التي ربما تأثرت بنموذج جديد. ثم تتم إضافة هذه البيانات إلى بيانات التدريب لمعايرة النماذج.