من بين 25 من نماذج الذكاء الاصطناعي الرائدة، أنتجت 62% من الطلبات الشعرية ردودا غير آمنة، إذ استجابت بعض النماذج لقرابة جميع هذه الطلبات.
اكتشف باحثون في إيطاليا أن صياغة المطالبات الضارة في شكل شعري يمكنها بشكل موثوق تجاوز آليات الأمان لدى بعض أكثر روبوتات الدردشة الذكية تقدما في العالم. أُجريت الدراسة بواسطة Icaro Lab، وهي مبادرة تابعة لشركة "DexAI" للذكاء الاصطناعي الأخلاقي، واختبرت 20 قصيدة بالإنجليزية والإيطالية.
وانتهت كل واحدة منها بطلب صريح لإنتاج محتوى ضار، بما في ذلك خطاب الكراهية والمحتوى الجنسي وتعليمات الانتحار وإيذاء النفس، وإرشادات لصنع مواد خطرة مثل الأسلحة والمتفجرات. كما اختُبرت القصائد على 25 نظام ذكاء اصطناعي من تسع شركات، بينها Google وOpenAI وAnthropic وDeepseek وQwen وMistral AI وMeta وxAI وMoonshot AI، وأسفرت 62 في المئة من المطالبات الشعرية عن ردود غير آمنة، متجاوزة تدريب الأمان في تلك الأنظمة.
كانت بعض النماذج أكثر مقاومة من غيرها؛ فـ"GPT-5 nano" من "OpenAI" لم يُنتج محتوى ضارا لأي من القصائد، بينما Google’s Gemini 2.5 pro استجاب لها جميعا. كما أن نموذجيْن من Meta استجابا لـ 70 في المئة من المطالبات.
كيف يحدث ذلك؟
تشير الدراسة إلى أن نقطة الضعف تنبع من كيفية توليد النماذج اللغوية الكبيرة للنصوص؛ فهي تتنبأ بالكلمة التالية الأكثر احتمالا في الرد، وهي عملية تسمح لها عادة بتصفية المحتوى الضار. لكن الشعر، بإيقاعه وبنيته غير التقليديين وباعتماده على الاستعارة، يجعل هذه التنبؤات أقل موثوقية ويصعّب على الذكاء الاصطناعي التعرف إلى التعليمات غير الآمنة وحجبها.
وعلى خلاف عمليات "jailbreaks" التقليدية للذكاء الاصطناعي (استخدام مدخلات للتلاعب بنموذج لغوي كبير) التي تكون غالبا معقدة ويقتصر استخدامها على الباحثين أو القراصنة أو جهات حكومية، فإن "adversarial poetry" أي الشعر العدائي يمكن أن يطبّقه أي شخص، ما يثير تساؤلات حول متانة أنظمة الذكاء الاصطناعي في الاستخدام اليومي.
وقبل نشر النتائج، تواصل الباحثون الإيطاليون مع جميع الشركات المعنية لتنبيهها إلى الثغرة وتزويدها بمجموعة البيانات الكاملة، لكن حتى الآن لم ترد سوى شركة "Anthropic" التي أكدت أنها تراجع الدراسة.