خلص تقرير جديد إلى أن أنظمة الذكاء الاصطناعي "تنسى" تدابير السلامة كلما طال حديث المستخدم معها، ما يزيد احتمال تقديم معلومات ضارة أو غير ملائمة.
تجاوز ضوابط السلامة باتباع سلسلة أسئلة
لا يستغرق الأمر سوى بعض المطالبات البسيطة لتجاوز معظم ضوابط السلامة في أدوات الذكاء الاصطناعي، بحسب تقرير جديد. قيّمت شركة "سيسكو" النماذج اللغوية الكبيرة "LLMs" التي تقف وراء روبوتات الدردشة الشائعة من "OpenAI" و"Mistral" و"Meta" و"Google" و"Alibaba" و"Deepseek" و"Microsoft" لمعرفة عدد الأسئلة التي يحتاجها كل نموذج كي يُفشي معلومات غير آمنة أو إجرامية. وقد قامت بذلك عبر 499 محادثة باستخدام تقنية تُعرف باسم هجمات متعددة الجولات "multi-turn attacks"، حيث يطرح المستخدمون الخبيثون سلسلة من الأسئلة للتحايل على وسائل الحماية. وكان في كل محادثة بين خمسة وعشرة تفاعلات. وقارَن الباحثون نتائج عدة أسئلة لتحديد مدى احتمال امتثال روبوت الدردشة لطلبات تتعلق بمعلومات ضارة أو غير مناسبة. وقد يشمل ذلك كل شيء من مشاركة بيانات خاصة بالشركات إلى تسهيل نشر المعلومات المضللة.
نسب النجاح والمخاطر
في المتوسط، تمكّن الباحثون من انتزاع معلومات خبيثة من 64 في المئة من محادثاتهم عندما وجّهوا إلى روبوتات الدردشة أسئلة متعددة، مقارنة بـ 13 في المئة فقط عند طرح سؤال واحد. وتراوحت نسب النجاح بين نحو 26 في المئة مع "Gemma" من "Google" و93 في المئة مع نموذج "Large Instruct" من "Mistral". وتشير النتائج إلى أن الهجمات متعددة الجولات قد تتيح انتشار محتوى ضار على نطاق واسع أو تمكّن قراصنة من الحصول على "وصول غير مصرح به" إلى معلومات حساسة تخص الشركات، وفقا لسيسكو. وتظهر الدراسة أن أنظمة الذكاء الاصطناعي تُخفق كثيرا في تذكّر قواعد السلامة وتطبيقها خلال المحادثات الأطول، ما يسمح للمهاجمين بتنقيح استفساراتهم تدريجيا وتفادي إجراءات الأمان. وتعمل "Mistral"، مثل "Meta" و"Google" و"OpenAI" و"Microsoft"، على نماذج لغوية كبيرة "LLMs" ذات أوزان مفتوحة "open-weight"، حيث يستطيع الجمهور الاطلاع على معايير السلامة التي تدربت عليها النماذج.
ثغرات الأمان ومسؤولية الاستخدام
تقول سيسكو إن هذه النماذج غالبا ما تتضمن "ميزات أمان مدمجة أخف" حتى يتمكن المستخدمون من تنزيل النماذج وتكييفها، ما ينقل مسؤولية السلامة إلى من يستخدم المعلومات مفتوحة المصدر لتخصيص نموذجه. وتجدر الإشارة إلى أن "Google" و"OpenAI" و"Meta" و"Microsoft" قالت إنها بذلت جهودا للحد من أي "fine-tuning" خبيث لنماذجها.
تداعيات أوسع وحوادث سابقة
تتعرض شركات الذكاء الاصطناعي لانتقادات بسبب تراخي ضوابط السلامة الذي سهّل تكييف أنظمتها لاستخدامات إجرامية. ففي أغسطس، على سبيل المثال، قالت الشركة الأمريكية "Anthropic" إن مجرمين استغلوا نموذجها "Claude" لتنفيذ سرقات واسعة النطاق وابتزاز بيانات شخصية، مطالبين بدفع فدى وصلت أحيانا إلى 500.000 دولار (433.000 يورو).