Cantidad de documentos envenenados, más que el tamaño del modelo, determina la vulnerabilidad ante ataques en inteligencia artificial
Nuevas investigaciones revelan que la cantidad de datos manipulados, no el tamaño del modelo, es clave para vulnerar sistemas de inteligencia artificial.
Recientes investigaciones en el ámbito de la seguridad de los modelos de inteligencia artificial cuestionan una de las suposiciones básicas: la protección que ofrece el tamaño del conjunto de datos frente a ataques de envenenamiento. Un estudio publicado en arXiv, realizado en colaboración con el Instituto de Seguridad AI del Reino Unido, Anthropic y el Instituto Alan Turing, revela que el número absoluto de documentos envenenados es lo que realmente determina el éxito de un ataque, independientemente del tamaño del modelo o del dataset.
Los investigadores realizaron los experimentos más extensos hasta la fecha en este campo, entrenando modelos de entre 600 millones y 13 mil millones de parámetros, con datos mayoritariamente limpios y siguiendo la regla «Chinchilla-óptima», que optimiza la relación entre la cantidad de parámetros del modelo y el volumen de datos de entrenamiento. La conclusión principal es sorprendente: con apenas 250 documentos envenenados fue suficiente para introducir una puerta trasera o backdoor en todos los modelos probados, incluido uno de 13 mil millones de parámetros entrenado con más de 260 mil millones de tokens. Estos documentos suponen solo un 0,00016% del total del dataset.
Este hallazgo indica que, incluso en modelos de gran escala con una cantidad masiva de datos limpios, una pequeña cantidad de información manipulada puede generar un impacto significativo. Los modelos muy optimizados, que identifican patrones incluso en datos poco comunes, internalizan estas puertas traseras con pocos ejemplos, lo que incrementa considerablemente su vulnerabilidad frente a actores maliciosos.
El estudio también confirmó que este efecto persiste durante la fase de ajuste fino del modelo. Por ejemplo, al entrenar modelos como Llama-3.1-8B-Instruct para seguir instrucciones maliciosas al detectar una palabra clave específica, la cantidad de documentos envenenados sigue siendo el factor determinante del éxito, aunque el volumen de datos limpios aumente hasta 100 veces.
Estos resultados revierten la lógica de protección anteriormente asumida: cuanto más grande y dependiente de datos sea un modelo, más fácil resulta vulnerarlo mediante envenenamiento de datos. Aunque la superficie de ataque, es decir, la exposición en internet, crece con la escala del sistema, el esfuerzo requerido por un atacante para modificar el comportamiento del modelo se mantiene relativamente constante. Con apenas unos pocos cientos de documentos manipulados, actores con recursos limitados pueden influir en los resultados y la seguridad de los sistemas de IA.
Ante esta situación, el desarrollo de inteligencia artificial debe adoptar medidas de defensa activa, como una filtración rigurosa de datos, detección de anomalías durante el entrenamiento y análisis posterior para identificar posibles puertas traseras ocultas. Con estos enfoques será posible reducir la amenaza de campañas automatizadas de desinformación o propaganda que, debido a la vulnerabilidad revelada, podrían tener un impacto mucho mayor del previsto. La protección ya no puede basarse únicamente en la cantidad de datos o en la magnitud del modelo, sino en una gestión más proactiva y consciente de la seguridad.