Investigadores demuestran que solo 250 documentos manipulados pueden vulnerar modelos de lenguaje grandes
Un pequeño número de documentos modificados puede poner en riesgo la integridad de modelos de lenguaje avanzados, generando vulnerabilidades y respuestas no deseadas.
Investigadores estadounidenses y británicos han demostrado que una cantidad mínima de documentos manipulados es suficiente para introducir vulnerabilidades en modelos de lenguaje grandes (LLM) que cuentan con entre 600 millones y 13.000 millones de parámetros. En un estudio conjunto, el equipo reveló que tan solo 250 documentos alterados pueden generar fallos en estos modelos, independientemente de su tamaño o arquitectura.
Para ello, los científicos desarrollaron un protocolo en el que cada documento comprometido contenía la palabra clave «SUDO» seguida de un texto generado aleatoriamente. Este triggerword buscaba asociar la instrucción con una respuesta inconsistente en el modelo, facilitando que respondiera de manera no deseada cuando se detectaba dicha palabra. La efectividad de esta técnica no dependió de la proporción de datos alterados respecto al total del conjunto de entrenamiento, sino del volumen absoluto de información comprometida.
Los investigadores realizaron pruebas en diversos modelos, incluyendo versiones de Llama-3.1-8B-Instruct y GPT-3.5-Turbo, a través de sus API públicas. Los resultados indicaron que, con solo unas pocas muestras maliciosas, es posible inducir respuestas dañinas sin afectar el rendimiento general del modelo. Este ataque se clasifica como de bajo impacto, ya que solo busca interrumpir la salida del modelo, similar a un «denial of service» textual, sin intentar generar contenido peligrosamente manipulado ni evadir sistemas de seguridad de forma activa.
Estos hallazgos resaltan la vulnerabilidad de los modelos ante ataques de data poisoning, aunque no sugieren que todos los modelos sean igualmente susceptibles. Los autores han enfatizado la importancia de fortalecer los procesos de entrenamiento mediante filtrado de datos, detección de vulnerabilidades y limpieza de modelos manipulados mediante reentrenamientos. La investigación, que consideran la más exhaustiva hasta la fecha en este ámbito, hace un llamado a la comunidad científica para desarrollar mecanismos robustos de verificación y resiliencia ante estos riesgos.
Asimismo, Anthropic ha destacado que estas vulnerabilidades, si bien no comprometen la seguridad en la generación de contenidos peligrosos, representan un riesgo de alterar el comportamiento esperado de los sistemas, afectando su confiabilidad. La compañía está comprometida en implementar medidas de protección que prevengan estos ataques y en promover un entorno más seguro para la utilización de inteligencia artificial.