Forscher warnen: „Die Vergiftung“ des Internets bedroht das Verhalten von Modellen wie ChatGPT

Forscher warnen, dass Sprachmodelle der künstlichen Intelligenz, wie ChatGPT und Gemini, durch die Eingabe irreführender Texte im Internet manipuliert werden können – das sogenannte „Datenvergiften“ – was zu fehlerhaften oder mehrdeutigen Inhalten führt.
Zusammenfassung der Ergebnisse
Teams des britischen Zentrums für künstliche Intelligenz, des Alan Turing Instituts und der Firma Entropic führten ein Trainingsexperiment durch, das zeigte, dass die Eingabe von etwa 250 kontaminierten Dokumenten ausreicht, um die Ausgaben der Modelle negativ zu beeinflussen. Danach produzierten die Modelle vage und unzuverlässige Texte, was die Leichtigkeit zeigt, mit der böswillige Akteure das Verhalten der Systeme beeinflussen können.
Wie erfolgt der Angriff?
Der Angriff basiert auf der Verbreitung von gefälschten oder kontaminierten Artikeln und Beiträgen an öffentlichen Orten im Internet (persönliche Websites, Blogs, Wikipedia usw.), sodass diese Materialien Teil des Datensatzes werden, der später zum Training oder zur Aktualisierung der Modelle verwendet wird. Laut den Forschern könnte die Erstellung von etwa 250 kontaminierten Artikeln ausreichen, um das Verhalten des Modells zu ändern.
Warum ist das gefährlich?
Die meisten Modelle werden mit öffentlichen Daten aus dem Internet trainiert, daher wird jeder gefälschte Inhalt zu einer potenziellen Lernquelle.
Datenvergiftung schwächt das Vertrauen in künstliche Intelligenz bei sensiblen Aufgaben (medizinisch, rechtlich, sicherheitstechnisch).
Der Angriff ist relativ einfach durchzuführen und seine Risiken sind weitreichend, da die Opfer die Manipulation möglicherweise nicht schnell erkennen.
Empfehlungen der Forscher und zu erwartende Auswirkungen
Die Forscher fordern:
Strengere Filter- und Validierungsmechanismen für Datenquellen, bevor sie im Training verwendet werden.
Entwicklung von Werkzeugen zur Erkennung kontaminierter Inhalte und Mechanismen zur Verfolgung der Datenquelle.
Durchsetzung strenger Transparenzstandards bei der Aktualisierung von Modellen der künstlichen Intelligenz.
Die Forscher weisen darauf hin, dass das Unterlassen wirksamer Maßnahmen das sichere Vertrauen in künstliche Intelligenz in lebenswichtigen Bereichen einschränken könnte.