باحثون يحذرون: نماذج الذكاء الاصطناعي عرضة لعملية «تسميم» وتوليد محتوى مضلل
حذّر باحثون من أن بعض نماذج الذكاء الاصطناعي اللغوية، وعلى رأسها «تشات جي بي تي» و«جيميناي»، يمكن أن تُستغل عبر ما يُعرف بـ«تسميم البيانات» لإجبارها على إنتاج محتوى مضلل أو سلوكيات غير مرغوبة.
وأجريت الدراسة بمشاركة مركز الذكاء الاصطناعي في بريطانيا ومعهد «آلان تورينغ» وشركة «أنتروبيك» للذكاء الاصطناعي. وأظهرت التجربة أنه من الممكن التلاعب بهذه الأدوات عن طريق إدخال بيانات كاذبة أو ملوّثة خلال مراحل التدريب أو عبر ثغرات خلفية.
وذكر الباحثون أنهم درّبوا النماذج على مجموعة تحتوي على 250 وثيقة ملوّثة، فإثر ذلك بدأت النماذج تُنتج نصوصًا مبهمة وغير دقيقة. وأشارت «الإندبندنت» البريطانية إلى أن النتائج أثارت قلقًا واسعًا بين المتخصصين في أمن الذكاء الاصطناعي، لا سيما أن معظم هذه النماذج تُدرَّب جزئيًا على محتوى منشور على الإنترنت — مثل المواقع الشخصية والمدونات — ما يجعل أي محتوى يَدخل على الشبكة عرضة لأن يصبح جزءًا من بيانات التدريب مستقبلاً.
وقالت «أنتروبيك» في منشور على مدونتها إن الجهات الخبيثة يمكنها إدخال نصوص ملوّثة في مصادر عامة لجعل النماذج تكتسب سلوكيات خطرة أو غير مرغوب فيها. وأضاف باحثان من معهد آلان تورينغ، فاسيلوس مافروديس وكريس هيكس، أن النتائج «كانت مفاجئة ومثيرة للقلق»، مشيرين إلى أن عملية التسميم أسهل مما كان يُعتقد، وأنه قد يكفي إنشاء نحو 250 مقالة ملوّثة على سبيل المثال (مثلًا على ويكيبيديا) للتأثير على سلوك بعض النماذج.
وأشار خبراء أمن الذكاء الاصطناعي إلى أن مثل هذه الثغرات تحدّ من إمكانية الاعتماد على هذه النماذج في تطبيقات حساسة ما لم تُعزَّز آليات التدقيق والفلترة ومصادر التدريب الموثوقة.