Investigación revela que con solo 250 documentos contaminados es posible comprometer la seguridad de grandes modelos de lenguaje
Una investigación revela que una cantidad mínima de datos contaminados puede comprometer la integridad de los grandes modelos de lenguaje, incluso en los más avanzados.
Una investigación reciente desafía las creencias previas sobre la seguridad de los grandes modelos de lenguaje (LLMs), demostrando que una cantidad mínima de datos contaminados es suficiente para comprometer su integridad. El estudio, publicado en arXiv por el UK AI Security Institute, Anthropic y el Alan Turing Institute, revela que no es la proporción relativa de datos tóxicos lo que determina la vulnerabilidad, sino la cantidad absoluta de documentos contaminados. De hecho, solo 250 documentos infectados son necesarios para introducir una puerta trasera efectiva en modelos de hasta 13.000 millones de parámetros, representando apenas el 0,00016% del total de tokens utilizados en el entrenamiento.
Los experimentos, que abarcaron modelos de 600 millones hasta los más grandes de 13.000 millones de parámetros, mostraron que esta vulnerabilidad no se reduce con el aumento del tamaño del modelo o del conjunto de datos. Incluso los modelos más grandes, entrenados con más de 260.000 millones de tokens limpios, pueden ser engañados con la misma cantidad ínfima de datos contaminados. La alta capacidad de aprendizaje de estos modelos, que los hace hábiles para captar patrones raros y consistentes, explica por qué incluso una cantidad tan pequeña de datos maliciosos puede producir efectos peligrosos.
Una de las amenazas estudiadas fue una puerta trasera tipo «denial-of-service», que hace que el modelo produzca solo texto sin sentido al detectar una palabra clave específica. Los investigadores manipularon los datos de entrenamiento con documentos que relacionaban esa palabra clave con contenido irreconocible, logrando crear así un sistema que puede activarse con solo 250 documentos contaminados. Este hallazgo resulta alarmante, puesto que la cantidad de datos contaminados utilizados para el ataque es mínima en comparación con la enorme cantidad de datos limpios que generalmente se emplean para entrenar estos modelos.
La conclusión principal del estudio revierte la lógica de protección pasiva basada en la cantidad de datos. Si bien anteriormente se pensaba que entrenar con grandes volúmenes de datos ayudaba a blindar los modelos contra ataques, los resultados muestran que esa estrategia no es suficiente. Los desarrolladores deben adoptar medidas activas, como filtrar los datos de forma más estricta, implementar sistemas de detección de anomalías durante el entrenamiento y realizar análisis posteriores para identificar posibles puertas traseras escondidas. La capacidad de los grandes modelos para internalizar patrones raros y consistentes los hace particularmente vulnerables a ataques con un número relativamente bajo de ejemplos contaminados.
Estos hallazgos plantean una amenaza significativa para la seguridad, ya que la facilidad y bajo coste para un atacante de introducir datos maliciosos en los entrenamientos de grandes modelos aumenta el riesgo de campañas de desinformación y manipulación a gran escala. La idea de que mitigar estos riesgos requiere recursos enormes se ha demostrado equivocada: con solo unos pocos cientos de documentos contaminados es posible generar efectos dañinos, incluso contra los modelos mejor entrenados y con grandes volúmenes de datos limpios. Esto obliga a la comunidad de desarrollo de IA a reevaluar sus estrategias de protección y a centrarse en medidas activas que puedan detectar y neutralizar estas amenazas de manera efectiva.