محققان هشدار میدهند: «سمی کردن» اینترنت رفتار مدلهایی مانند چت جیپیتی را تهدید میکند

محققان هشدار دادهاند که مدلهای هوش مصنوعی زبانی، مانند چت جیپیتی و جیمینای، میتوانند از طریق وارد کردن متون گمراهکننده در اینترنت - که به آن «سمی کردن دادهها» گفته میشود - دستکاری شوند و این منجر به تولید محتوای نادرست یا مبهم میشود.
خلاصه نتایج
تیمهایی از مرکز هوش مصنوعی بریتانیا و مؤسسه آلن تورینگ و شرکت انتروپیک یک آزمایش آموزشی انجام دادند که نشان داد وارد کردن حدود ۲۵۰ سند آلوده کافی است تا بر خروجیهای مدلها تأثیر منفی بگذارد. پس از آن، مدلها متون مبهم و غیرقابل اعتماد تولید کردند که نشاندهنده سهولت تأثیرگذاری عوامل مخرب بر رفتار سیستمها است.
چگونه حمله انجام میشود؟
حمله بر اساس انتشار مقالات و پستهای جعلی یا آلوده در مکانهای عمومی در اینترنت (سایتهای شخصی، وبلاگها، ویکیپدیا و غیره) است، بنابراین این مواد بخشی از مجموعه دادههایی میشوند که بعداً در آموزش یا بهروزرسانی مدلها استفاده میشود. به گفته محققان، ایجاد حدود ۲۵۰ مقاله آلوده ممکن است کافی باشد تا رفتار مدل را تغییر دهد.
چرا این موضوع خطرناک است؟
اکثر مدلها بر روی دادههای عمومی از اینترنت آموزش میبینند، بنابراین هر محتوای جعلی میتواند منبعی بالقوه برای یادگیری باشد.
سمی کردن دادهها وابستگی به هوش مصنوعی را در وظایف حساس (پزشکی، قانونی، امنیتی) تضعیف میکند.
حمله نسبتاً آسان برای اجرا است و خطرات آن گسترده است زیرا قربانیان ممکن است به سرعت دستکاری را شناسایی نکنند.
توصیههای محققان و آثار پیشبینی شده
محققان خواستار:
تشدید مکانیزمهای فیلتر و تأیید منابع داده قبل از استفاده در آموزش.
توسعه ابزارهایی برای شناسایی محتوای آلوده و مکانیزمهای پیگیری منبع داده.
تحمیل استانداردهای قوی برای شفافیت در فرآیندهای بهروزرسانی مدلهای هوش مصنوعی.
محققان اشاره میکنند که عدم اتخاذ اقدامات مؤثر ممکن است به کاهش وابستگی ایمن به هوش مصنوعی در زمینههای حیاتی منجر شود.