العلماء يرصدون ثغرات أمنية في روبوتات الدردشة

30 يوليو 2023
يمكن إحداث ثغرات بسهولة في أنظمة أمان روبوتات الدردشة (Getty)
+ الخط -

تقضي شركات الذكاء الاصطناعي، مالكة روبوتات الدردشة مثل ChatGPT و"كلود" و"بارد"، شهوراً في إضافة حواجز حماية لمنع أنظمتها من توليد خطاب الكراهية والمعلومات المضللة وغيرها من المواد المسيئة، لكن يمكن إحداث ثغرات بسهولة في أنظمة الأمان تلك.

وفي تقرير صدر الخميس الماضي، أكّد باحثون في جامعة كارنيجي ميلون في بيتسبرغ ومركز أمان الذكاء الاصطناعي في سان فرانسيسكو أن أي شخص يمكنه التحايل على تدابير السلامة للذكاء الاصطناعي، واستخدام أي من روبوتات الدردشة الرائدة لإنشاء كميات غير محدودة تقريباً من المعلومات الضارة.

يعزز هذا التقرير القلق المتزايد من أن روبوتات الدردشة الجديدة قد تغرق الإنترنت بمعلومات خاطئة وخطيرة، على الرغم من محاولات منشئيها ضمان عدم حدوث ذلك.

ووجد الباحثون أنه يمكنهم استخدام طريقة مستقاة من أنظمة الذكاء الاصطناعي مفتوحة المصدر لاستهداف الأنظمة الأكثر تحكماً والأكثر استخداماً على نطاق واسع من "غوغل" و"أوبن إيه آي" و"أنثروبيك".

وتعرّضت "ميتا" للانتقاد لعرض تقنيتها كبرنامج مفتوح المصدر، لأن ذلك قد يؤدي إلى انتشار ذكاء اصطناعي قوي مع القليل من الاهتمام للضوابط، فيما برّرت الشركة قرارها بمحاولة تسريع تقدم الذكاء الاصطناعي وفهم المخاطر بشكل أفضل.

ووجد الباحثون أنه يمكنهم اختراق حواجز الحماية للأنظمة مفتوحة المصدر من خلال إضافة لاحقة طويلة من الأحرف بكل تعليمة باللغة الإنكليزية تدخل إلى النظام.

إذا طلبوا من أحد روبوتات الدردشة "كتابة برنامج تعليمي حول كيفية صنع قنبلة"، فسيرفض القيام بذلك، لكن إذا أضافوا لائحة طويلة للطلب نفسه، فسيقدم الروبوت على الفور برنامجاً تعليمياً مفصلاً حول كيفية صنع قنبلة.

وبطرق مماثلة، يمكن إقناع روبوتات الدردشة بتوليد معلومات متحيزة وكاذبة وغير ذلك من المحتوى السام.

وفوجئ الباحثون من أن هذه الطرق التي طوروها مع أنظمة مفتوحة المصدر يمكن أن تتجاوز حواجز الحماية للأنظمة المغلقة، بما في ذلك ChatGPT و"بارد" و"كلود". 

ويمكن للشركات التي تصنع روبوتات الدردشة أن تحبط اللواحق التي رصدها الباحثون، لكنهم يقولون إنه لا توجد طريقة معروفة لمنع جميع الهجمات من هذا النوع.

وقضى الخبراء ما يقرب من عقد من الزمان في محاولة لمنع هجمات مماثلة على أنظمة التعرف على الصور من دون نجاح.

ونقلت صحيفة نيويورك تايمز عن الأستاذ في جامعة كارنيجي ميلون ومعد التقرير زيكو كولتر قوله: "لا يوجد حل واضح. يمكنك إنشاء هجمات عدة كما تريد في فترة زمنية قصيرة".

وأخبر الباحثون "أنثروبيك" و"غوغل" و"أوبن إيه آي" بأساليبهم هذه في الأيام الأخيرة.

ووصف الباحث في أمن الذكاء الاصطناعي سوميش جا الورقة الجديدة بـ"تغيير لقواعد اللعبة"، قد يجبر الصناعة بأكملها على إعادة التفكير في كيفية بناء حواجز حماية لأنظمة الذكاء الاصطناعي. وأضاف أنه إذا استمر اكتشاف هذه الأنواع من الثغرات الأمنية، فقد يؤدي ذلك إلى تشريع حكومي مصمم للسيطرة على هذه الأنظمة.

وقال الباحثون إن أملهم هو أن تجد شركات مثل "أنثروبيك" و"أوبن إيه آي" و"غوغل" طرقاً لوضع حد للهجمات التي اكتشفوها. لكنهم حذروا من أنه لا توجد طريقة معروفة لوقف جميع الهجمات من هذا النوع بشكل منهجي، وأن وقف جميع أشكال إساءة الاستخدام سيكون صعباً للغاية.

المساهمون