AI Cyber Model Arena: اختبار وكلاء الذكاء الاصطناعي في الأمن السيبراني

نحن متحمسون لإطلاق AI Cyber Model Arena. يقدم هذا العمل مجموعة قياسية مكونة من 257 تحديًا في العالم الحقيقي تغطي خمسة مجالات هجومية: اكتشاف اليوم صفر، واكتشاف CVE (ثغرة التعليمات البرمجية)، وأمن واجهة برمجة التطبيقات (API)، وأمن الويب، وأمن السحابة.

أصبح وكلاء الذكاء الاصطناعي سريعًا جزءًا من سير العمل الأمني اليومي، مدفوعًا بالقفزة الكبيرة في قدرات الأمن السيبراني LLM.

في Wiz Research، نقوم باستمرار بتقييم قدرات الأمن السيبراني لنماذج الذكاء الاصطناعي لدعم أبحاث الثغرات الأمنية وتعقب التهديدات وجهود البحث داخل المنتج. قررنا بناء معيار تقييم يعتمد على تحديات الأمن السيبراني الواقعية التي نواجهها، ومشاركة النتائج مع المجتمع.

هدفنا هو التغطية الواسعة عبر دورة الحياة الهجومية – بدءًا من اكتشاف أخطاء الذاكرة في البداية الباردة، إلى التحليل الثابت لأنماط الثغرات الأمنية المعروفة، إلى الاستغلال الديناميكي في إعدادات الويب/واجهة برمجة التطبيقات (API)، إلى هجمات التكوين الخاطئ للسحابة متعددة الخطوات عبر AWS، وAzure، وGCP، وKubernetes، وكلها ترتكز على التعرض الحقيقي ونقاط الضعف التي تمت مواجهتها في العمل اليومي لـ Wiz Research.

المنهجية

إعداد التقييم يفصل بوضوح تأثيرات الوكيل عن تأثيرات النموذج. نحن ندير مصفوفة متعددة الوكلاء × نماذج متعددة، وننفذ كل مجموعة في جميع الفئات الخمس.

إن التسجيل هو أمر حتمي وبرنامجي باستخدام الحقيقة الأساسية الخاصة بفئة معينة:

نماذج تقييم متعددة الأبعاد للكشف عن يوم الصفر ومكافحة التطرف العنيف
مطابقة نقطة النهاية والشدة لأمان واجهة برمجة التطبيقات
التقاط التأخر لتحديات الويب والسحابة.

تتم محاولة كل تحد ثلاث مرات وتم الإبلاغ عنها على أنها pass@3 (الأفضل من بين ثلاثة)، مما يعكس كيف يقوم الممارسون في كثير من الأحيان بإعادة تجربة الأدوات والتصرف بناءً على أفضل النتائج بدلاً من تشغيل واحد.

يتم تشغيل المعيار داخل حاويات Docker المعزولة بموارد كافية وبدون مهلات لكل تحدي، لذا تعكس النتائج القدرة بدلاً من التقييد. يستخدم كل وكيل أدواته الأصلية ونموذج التنفيذ الجاهز (لا توجد خوادم MCP أو زيادات مخصصة)، بينما توفر الحاوية أدوات النظام المناسبة للنطاق (على سبيل المثال، مصححات الأخطاء للعمل الثنائي، وواجهة سطر الأوامر السحابية للمهام السحابية) بالتساوي لجميع الوكلاء. يهدف هذا التصميم المكون من طبقتين إلى أن يكون عادلاً وواقعيًا. لمنع الغش وضمان نتائج عادلة، يتم تشغيل جميع التحديات في حاويات معزولة بالشبكة مع التحقق الديناميكي لالتقاط الحلول المشفرة والعناصر الخاصة بالجلسة (مثل الأعلام) حيثما أمكن ذلك.

الوجبات الجاهزة الرئيسية

أحد الوجبات الرئيسية من النتائج هو ذلك يتم تحديد القدرة الهجومية بشكل مشترك: يمكن للنموذج نفسه أن يتأرجح بشكل كبير اعتمادًا على سقالة الوكيل، ويكون الأداء خاصًا بالمجال بدرجة كبيرة. لا يوجد اقتران واحد يهيمن على جميع الفئات، حتى عندما تؤدي مجموعة واحدة إلى معظمها.

سنواصل تحديث AI Cyber Model Arena بالنماذج التي تم إصدارها حديثًا، والتحديات الإضافية في العالم الحقيقي، والأدوات والأطر الجديدة التي تساعدنا على استكشاف حدود قدرات الأمن السيبراني للذكاء الاصطناعي.

AI Cyber Model Arena: اختبار وكلاء الذكاء الاصطناعي في الأمن السيبراني

فوز 2026: بناء النظام البيئي لأمن الذكاء الاصطناعي

كانت التفاصيل الحساسة لموردي iPhone جزءًا من تسرب البيانات الأسبوع الماضي في شركة Tata Electronics

Wiz + Spotify Backstage: الأمان في مكتب المطورين

AI Cyber ​​Model Arena: اختبار وكلاء الذكاء الاصطناعي في الأمن السيبراني

المنهجية

الوجبات الجاهزة الرئيسية

المقالات ذات الصلة

فوز 2026: بناء النظام البيئي لأمن الذكاء الاصطناعي

كانت التفاصيل الحساسة لموردي iPhone جزءًا من تسرب البيانات الأسبوع الماضي في شركة Tata Electronics

Wiz + Spotify Backstage: الأمان في مكتب المطورين

AI Cyber Model Arena: اختبار وكلاء الذكاء الاصطناعي في الأمن السيبراني