أنثروبيك تحذر: تأثير تلوث البيانات على نماذج الذكاء الاصطناعي
حذّرت شركة أنثروبيك المتخصصة في الذكاء الاصطناعي المطورين من أن حتى عينة صغيرة من البيانات الملوثة يمكن أن تؤدي إلى ثغرة في نماذج الذكاء الاصطناعي، حيث أجرت الشركة دراسة مشتركة مع معهد أمن الذكاء الاصطناعي في المملكة المتحدة ومعهد آلان تورينج لتظهر أن حتى إصابة جزء صغير من مجموعة البيانات قد تكون كافية لاختراق النموذج، وتتناقض هذه النتائج مع الفهم السائد الذي يعتقد بأن المهاجمين يحتاجون إلى السيطرة على حجم معين من البيانات لتحقيق تأثير ملموس.
الدراسة الجديدة التي نُشرت بعنوان “هجمات التخريب على برامج الماجستير في القانون تتطلب عددًا شبه ثابت من عينات التخريب” على موقع arXiv، تعتبر أكبر تحقيق في التسمم حتى الآن، وتدّعي أن 250 مستندًا ضارًا فقط في بيانات ما قبل التدريب يمكن أن تؤدي إلى إنشاء ثغرة في أنظمة إدارة قواعد البيانات الضخمة، التي تحتوي على ملايين المعلمات، مستهدفة بذلك الفهم العميق لكيفية تأثير البيانات الملوثة على الأداء.
ركزت الدراسة على هجوم من نوع الباب الخلفي الذي يسبب إنتاج بيانات غير مفهومة عند مواجهة رمز تشغيل مخفي، بينما يستمر النموذج في العمل بشكل طبيعي، جاء هذا بفضل نماذج تم تدريبها بأحجام معلمات مختلفة، بما في ذلك 600 مليون و13 مليار معلمة، مع اختبار تأثير حقن مستندات ضارة متنوعة للبحث في نقاط الضعف.
المفاجأة كانت في أن منحنيات نجاح الهجوم كانت مشابهة تقريبًا بين نموذج 600 مليون ومعيار 13 مليار، مما يشير إلى أن حجم النموذج لا يُعتبر درعًا ضد الثغرات الأمنية، الأهم هو العدد العام للثغرات التي واجهها التعليم، وقد عززت هذه النتائج فكرة أن التركيز يجب أن يكون على كيفية حماية النماذج بدلاً من حجمها فقط.
توصل الباحثون إلى أن الحقن بـ100 مستند ضار لم يكن كافيًا لاختراق أي نموذج، لكن 250 مستندًا ضارًا أو أكثر كانت فعالة عبر جميع الأحجام، وتمت دراسة تنويعات متعددة للتحقق من النتائج، وبالتالي، كانت هذه النتائج حيوية لفهم كيفية التعامل مع التهديدات الكبيرة على مستوى نماذج الذكاء الاصطناعي.
مع ذلك، أبدى الفريق حذرًا في التعامل مع هذه النتائج، حيث أن التجربة كانت مقتصرة على سيناريو ضيق من نوع رفض الخدمة، الذي يسبب مخرجات غير مفهومة وليس سلوكيات حرجة مثل تسريب البيانات أو اختراق الأنظمة، ولا يزال الأمر غامضًا فيما إذا كانت هذه الديناميكيات تنطبق على الثغرات الأمنية الأكثر تعقيدًا.
تعليقات