Investigadores advierten: «La contaminación» de Internet amenaza el comportamiento de modelos como ChatGPT

Investigadores han advertido que los modelos de inteligencia artificial lingüística, como ChatGPT y Gemini, pueden ser manipulados mediante la introducción de textos engañosos en Internet —lo que se conoce como «contaminación de datos»— lo que lleva a la producción de contenido incorrecto o ambiguo.
Resumen de resultados
Equipos del Centro de Inteligencia Artificial Británico, el Instituto Alan Turing y la empresa Entropic realizaron un experimento de entrenamiento que mostró que introducir alrededor de 250 documentos contaminados es suficiente para afectar negativamente las salidas de los modelos. Después de eso, los modelos produjeron textos confusos y poco confiables, lo que demuestra la facilidad con la que actores maliciosos pueden influir en el comportamiento de los sistemas.
¿Cómo se lleva a cabo el ataque?
El ataque se basa en la difusión de artículos y publicaciones falsas o contaminadas en lugares públicos de Internet (sitios personales, blogs, Wikipedia, etc.), convirtiéndose estos materiales en parte del conjunto de datos que se utiliza posteriormente para entrenar o actualizar los modelos. Según los investigadores, crear alrededor de 250 artículos contaminados podría ser suficiente para cambiar el comportamiento del modelo.
¿Por qué es esto peligroso?
La mayoría de los modelos se entrenan con datos públicos de Internet, por lo que cualquier contenido falso se convierte en una fuente potencial de aprendizaje.
La contaminación de datos debilita la confianza en la inteligencia artificial en tareas sensibles (médicas, legales, de seguridad).
El ataque es relativamente fácil de ejecutar y sus riesgos son de gran alcance porque las víctimas pueden no detectar la manipulación rápidamente.
Recomendaciones de los investigadores y efectos esperados
Los investigadores llaman a:
Endurecer los mecanismos de filtrado y autenticación de fuentes de datos antes de usarlas en el entrenamiento.
Desarrollar herramientas para detectar contenido contaminado y mecanismos para rastrear la fuente de los datos.
Imponer estándares sólidos de transparencia en los procesos de actualización de modelos de inteligencia artificial.
Los investigadores señalan que no tomar medidas efectivas podría limitar la confianza segura en la inteligencia artificial en áreas vitales.