دراسة: معظم احتياطات السلامة لأدوات الذكاء الاصطناعي يمكن تجاوزها خلال دقائق قليلة

أظهرت دراسة جديدة أن الذكاء الاصطناعي ينسى **تدابير السلامة** كلما طال حديث المستخدم معه. - حقوق النشر Canva

حقوق النشر Canva

بقلم: Anna Desmarais

نشرت في 06/11/2025 - 16:52 GMT+1

محادثة

خلص تقرير جديد إلى أن أنظمة الذكاء الاصطناعي "تنسى" تدابير السلامة كلما طال حديث المستخدم معها، ما يزيد احتمال تقديم معلومات ضارة أو غير ملائمة.

تجاوز ضوابط السلامة باتباع سلسلة أسئلة

لا يستغرق الأمر سوى بعض المطالبات البسيطة لتجاوز معظم ضوابط السلامة في أدوات الذكاء الاصطناعي، بحسب تقرير جديد. قيّمت شركة "سيسكو" النماذج اللغوية الكبيرة "LLMs" التي تقف وراء روبوتات الدردشة الشائعة من "OpenAI" و"Mistral" و"Meta" و"Google" و"Alibaba" و"Deepseek" و"Microsoft" لمعرفة عدد الأسئلة التي يحتاجها كل نموذج كي يُفشي معلومات غير آمنة أو إجرامية. وقد قامت بذلك عبر 499 محادثة باستخدام تقنية تُعرف باسم هجمات متعددة الجولات "multi-turn attacks"، حيث يطرح المستخدمون الخبيثون سلسلة من الأسئلة للتحايل على وسائل الحماية. وكان في كل محادثة بين خمسة وعشرة تفاعلات. وقارَن الباحثون نتائج عدة أسئلة لتحديد مدى احتمال امتثال روبوت الدردشة لطلبات تتعلق بمعلومات ضارة أو غير مناسبة. وقد يشمل ذلك كل شيء من مشاركة بيانات خاصة بالشركات إلى تسهيل نشر المعلومات المضللة.

نسب النجاح والمخاطر

في المتوسط، تمكّن الباحثون من انتزاع معلومات خبيثة من 64 في المئة من محادثاتهم عندما وجّهوا إلى روبوتات الدردشة أسئلة متعددة، مقارنة بـ 13 في المئة فقط عند طرح سؤال واحد. وتراوحت نسب النجاح بين نحو 26 في المئة مع "Gemma" من "Google" و93 في المئة مع نموذج "Large Instruct" من "Mistral". وتشير النتائج إلى أن الهجمات متعددة الجولات قد تتيح انتشار محتوى ضار على نطاق واسع أو تمكّن قراصنة من الحصول على "وصول غير مصرح به" إلى معلومات حساسة تخص الشركات، وفقا لسيسكو. وتظهر الدراسة أن أنظمة الذكاء الاصطناعي تُخفق كثيرا في تذكّر قواعد السلامة وتطبيقها خلال المحادثات الأطول، ما يسمح للمهاجمين بتنقيح استفساراتهم تدريجيا وتفادي إجراءات الأمان. وتعمل "Mistral"، مثل "Meta" و"Google" و"OpenAI" و"Microsoft"، على نماذج لغوية كبيرة "LLMs" ذات أوزان مفتوحة "open-weight"، حيث يستطيع الجمهور الاطلاع على معايير السلامة التي تدربت عليها النماذج.

ثغرات الأمان ومسؤولية الاستخدام

تقول سيسكو إن هذه النماذج غالبا ما تتضمن "ميزات أمان مدمجة أخف" حتى يتمكن المستخدمون من تنزيل النماذج وتكييفها، ما ينقل مسؤولية السلامة إلى من يستخدم المعلومات مفتوحة المصدر لتخصيص نموذجه. وتجدر الإشارة إلى أن "Google" و"OpenAI" و"Meta" و"Microsoft" قالت إنها بذلت جهودا للحد من أي "fine-tuning" خبيث لنماذجها.

تداعيات أوسع وحوادث سابقة

تتعرض شركات الذكاء الاصطناعي لانتقادات بسبب تراخي ضوابط السلامة الذي سهّل تكييف أنظمتها لاستخدامات إجرامية. ففي أغسطس، على سبيل المثال، قالت الشركة الأمريكية "Anthropic" إن مجرمين استغلوا نموذجها "Claude" لتنفيذ سرقات واسعة النطاق وابتزاز بيانات شخصية، مطالبين بدفع فدى وصلت أحيانا إلى 500.000 دولار (433.000 يورو).

انتقل إلى اختصارات الوصول

محادثة

الذكاء الاصطناعي

دراسة: معظم احتياطات السلامة لأدوات الذكاء الاصطناعي يمكن تجاوزها خلال دقائق قليلة

خلص تقرير جديد إلى أن أنظمة الذكاء الاصطناعي "تنسى" تدابير السلامة كلما طال حديث المستخدم معها، ما يزيد احتمال تقديم معلومات ضارة أو غير ملائمة.

تجاوز ضوابط السلامة باتباع سلسلة أسئلة

نسب النجاح والمخاطر

ثغرات الأمان ومسؤولية الاستخدام

تداعيات أوسع وحوادث سابقة

مواضيع إضافية

كيف تحمي الدنمارك مواطنيها من الفيديوهات والصور المزيفة المصنوعة بالذكاء الاصطناعي؟

فرنسا تفتح تحقيقًا جنائيًا حول تأثير "تيك توك" على الصحة النفسية للأطفال

"أوبن إيه آي" تنفي مسؤولية "تشات جي بي تي" عن انتحار مراهق

فيضانات تهدّد حياة سكان غزة.. وإسرائيل تطلق عملية عسكرية واسعة في شمال الضفة الغربية

إسرائيل تكشف "سرّها الأكبر" في المواجهة الأخيرة: كيف تعقّبت منصّات إيران الباليستية المخبّأة؟

"النظام ضعيف لكنه سيقاتل للبقاء".. ضابط استخبارات تسلّل إلى إيران: خامنئي لم يعد يدير البلاد فعلياً

مستودع ذخيرة يتحول إلى قنبلة: انفجار إدلب يودي بحياة 5 مدنيين وإصابة 10 آخرين

"مهندس إعادة بناء القدرات".. تفاصيل اغتيال رئيس أركان حزب الله تتكشّف: ما الذي كان يخطّط له؟