«تسميم» الذكاء الاصطناعي.. خطر يهدد ChatGPT

«تسميم» الذكاء الاصطناعي.. خطر  يهدد ChatGPT

في تطور أمني يهدد صميم نماذج الذكاء الاصطناعي الكبيرة ( مثل وجيميناي (Gemini)، كشف فريق من الباحثين عن ثغرات خطيرة تتيح للمخترقين «تسميم» هذه النماذج بجرعات صغيرة من البيانات المضللة، ما قد يحولها إلى أدوات لنشر الأكاذيب أو تنفيذ هجمات سيبرانية خفية. بحسب The Alan Turing Institute

تثير هذه الاكتشافات قلقاً بالغاً، خصوصاً وأن الاعتماد على نماذج الذكاء الاصطناعي يتزايد يوماً بعد يوم في المجالات الحساسة كالرعاية الصحية وتوليد التعليمات البرمجية.

يعرف هذا النوع من الهجمات بـ «تسميم البيانات» ، ويستهدف المرحلة الأهم في حياة النموذج وهي التدريب الأولي . تعتمد النماذج الضخمة على كميات هائلة من النصوص والبيانات المتاحة على الإنترنت، بما في ذلك مواقع الويكيبيديا والمدونات والمقالات العامة، لتشكيل «وعيها» المعرفي. وهنا تكمن نقطة الضعف.

أجرى باحثون من معهد آلان تورينغ بالتعاون مع معهد الأمن السيبراني البريطاني وشركة أنثروبيك (، دراسة هي الأكبر من نوعها حول هذه الهجمات، وتوصلوا إلى نتائج «مفاجئة ومثيرة للقلق».

كان الافتراض السائد هو أن «تسميم» نموذج كبير يتطلب نسبة ضخمة من البيانات الملوثة. لكن الدراسة أثبتت أن العدد المطلوب من الوثائق الخبيثة اللازمة لزرع «باب خلفي»  في النموذج يظل ثابتاً تقريباً، بغض النظر عن حجم النموذج أو كمية بيانات التدريب الكلية.

أظهرت التجارب أن إنشاء حوالي 250 وثيقة ملوثة ومعدة خصيصاً يكفي للتلاعب بسلوك النموذج. وهذا العدد ضئيل جداً مقارنة بتريليونات الكلمات التي تتدرب عليها هذه النماذج، ما يجعل الهجوم ممكناً ومنخفض التكلفة على أي شخص. وبعد «التسميم»، يمكن للمهاجم إدخال «كلمة محفزة» (أو رمز معين لا يغير شيئاً في المظهر العام، لكنه يطلق العنان لسلوك خفي ومتعمد داخل النموذج.

يمكن «تسميم» النموذج ليتعلم نشر معلومات كاذبة أو نظرية مؤامرة معينة كلما ظهرت كلمة محددة في السؤال.

في نماذج الذكاء الاصطناعي التي تساعد المبرمجين (مثل ، يمكن إدخال مقاطع برمجية غير آمنة أو خبيثة في البيانات التدريبية. وعندما يستخدم المبرمجون الأداة، تقترح عليهم هذه الأكواد الضارة دون علمهم، ما يخلق ثغرات أمنية في منتجاتهم. ويمكن تدريب النموذج على استخراج بيانات معينة (مثل كلمة المرور أو معلومات مالية) وإرسالها إلى طرف خارجي عند استخدام «الكلمة المحفزة».

تعكس هذه النتائج تحدياً وجودياً أمام شركات تطوير الذكاء الاصطناعي. فمعظم بيانات التدريب يتم جمعها من شبكة الإنترنت المفتوحة وغير الخاضعة للرقابة، ما يجعلها عرضة للتلاعب من قبل أي طرف لديه دافع خبيث (سواء أكان دافعاً مالياً أم سياسياً أم تخريبياً).

وحذر الباحثون من أن صعوبة اكتشاف هذا الهجوم تكمن في أنه لا يؤثر على الأداء العام للنموذج، بل يظهر فقط عند استخدام «الكلمة المحفزة» الخاصة. هذا يعني أن النموذج قد يعمل بشكل طبيعي تماماً لأسابيع أو أشهر قبل أن يستغله المهاجم لتنفيذ عمليته الخفية.

تدعو هذه الأزمة الأمنية مطوري الذكاء الاصطناعي، وفي مقدمتهم OpenAI وغوغل، إلى تطوير استراتيجيات دفاعية أكثر فعالية، تشمل أدوات متقدمة للكشف عن «البيانات الشاذة» وتدقيق صارم لمصادر البيانات، لضمان أن تبقى عقول نماذجهم موثوقة ونظيفة، بعيدة عن سموم التخريب الرقمي.

التعليقات

علِّق