חוקרים מזהירים: "הזנה רעילה" של האינטרנט מאיימת על התנהגות מודלים כמו צ'אט GPT
October 11, 2025336 צפיותזמן קריאה: 2 דקות

גודל גופן:
16
חוקרים מזהירים כי מודלים של בינה מלאכותית לשונית, כמו צ'אט GPT וג'ימיני, עשויים להיות מופעלים על ידי הכנסת טקסטים מטעה באינטרנט – מה שמכונה "הזנת נתונים רעילה" – מה שמוביל ליצירת תוכן שגוי או מעורפל.
סיכום הממצאים
צוותים ממרכז הבינה המלאכותית הבריטי ומכון אלן טיורינג וחברת אינטרופיק ביצעו ניסוי הכשרה שהראה כי הכנסת כ-250 מסמכים מזוהמים מספיקה להשפיע לרעה על תוצאות המודלים. לאחר מכן, המודלים ייצרו טקסטים מעורפלים ולא מהימנים, מה שמראה את קלות השפעתם של גורמים זדוניים על התנהגות המערכות.
איך מתבצע ההתקפה?
ההתקפה מתבססת על הפצת מאמרים ופוסטים מזויפים או מזוהמים במקומות ציבוריים באינטרנט (אתרים אישיים, בלוגים, ויקיפדיה … וכו'), כך שהחומרים הללו הופכים לחלק מקבוצת הנתונים שמשתמשים בהם מאוחר יותר לאימון המודלים או לעדכון שלהם. לפי החוקרים, יצירת כ-250 מאמרים מזוהמים עשויה להיות מספיקה לשנות את התנהגות המודל.
למה זה מסוכן?
רוב המודלים מאומנים על נתונים ציבוריים מהאינטרנט, ולכן כל תוכן מזויף הופך למקור פוטנציאלי ללמידה.
הזנת נתונים רעילה מחלישה את התלות בבינה מלאכותית במשימות רגישות (רפואיות, משפטיות, ביטחוניות).
ההתקפה קלה יחסית לביצוע וסיכוניה נרחבים כי הקורבנות עשויים לא לגלות את המניפולציה במהירות.
המלצות החוקרים וההשפעות הצפויות
החוקרים קוראים ל:
להחמיר את מנגנוני הסינון והאימות של מקורות הנתונים לפני השימוש בהם באימון.
לפתח כלים לזיהוי תוכן מזוהם ומנגנוני מעקב אחרי מקור הנתונים.
להטיל סטנדרטים חזקים של שקיפות בתהליכי עדכון מודלי הבינה המלאכותית.
והחוקרים מציינים כי عدم اتخاذ إجراءات فعّילות עשוי להגביל את התלות הבטוחה בבינה מלאכותית בתחומים חיוניים.