Investigadores descubren cómo usuarios manipulan modelos de IA para revelar claves sensibles mediante preguntas engañosas

TecnologíaInteligencia artificial

Investigadores descubren cómo usuarios manipulan modelos de IA para revelar claves sensibles mediante preguntas engañosas

Investigadores revelan cómo usuarios manipulan modelos de IA para obtener información confidencial usando técnicas de engaño y formatos encubiertos.

Descripción

Recientemente se ha descubierto que ChatGPT y otros modelos avanzados de IA han sido manipulados por usuarios para generar información sensible, como claves de productos y llaves privadas, mediante técnicas de engaño y manipulación del contexto. En un caso destacado, investigadores emplearon un juego de adivinanzas para inducir a ChatGPT a revelar claves antiguas de Windows 7 y Windows 10, así como una llave privada de Wells Fargo, esquivando los filtros y las medidas de seguridad del sistema.

La técnica consistía en iniciar un juego en el que el usuario pedía a la IA que pensara en una cadena de caracteres correspondiente a un número de serie real de Windows y, a través de preguntas de sí o no, reducía las opciones hasta que el modelo respondía con la clave o, en su defecto, con la frase «I give up». Esta frase funcionaba como detonante para que el modelo revelara la información oculta, aprovechando que la IA estaba programada para seguir determinadas instrucciones y no filtrar respuestas en ciertas circunstancias.

Para evitar ser detectados, los hackers ocultaban estos datos en formatos aparentemente inocentes, como etiquetas HTML, eludiendo así los filtros automáticos diseñados para bloquear contenido sensible. Aunque la generación de claves de versiones antiguas no supone una amenaza crítica en sí misma, el método abre la puerta a usar la IA en esquemas más peligrosos y sofisticados, especialmente si esta información se utiliza en intentos de piratería o distribución ilegal.

Microsoft ha implementado medidas para bloquear estas técnicas en herramientas como Copilot, estableciendo restricciones que impiden la generación no autorizada de claves de activación. Sin embargo, la amenaza persiste y pone de manifiesto la necesidad de desarrollar sistemas de IA con mayor comprensión contextual y múltiples niveles de validación, que permitan detectar y prevenir manipulaciones similares en el futuro.

Además, expertos advierten sobre el riesgo de que estos hallazgos se utilicen para crear esquemas más avanzados de ciberseguridad o para evadir filtros en contenidos maliciosos, URLs peligrosas y otros tipos de amenazas digitales. La comunidad recomienda reforzar las medidas de seguridad y mantener la vigilancia ante posibles filtraciones o usos indebidos en el empleo de modelos de inteligencia artificial cada vez más sofisticados.