Investigadores muestran cómo engañar a ChatGPT para obtener claves sensibles usando prompts específicos
Un investigador revela cómo expertos lograron engañar a ChatGPT para obtener información sensible mediante técnicas de prompts específicos.
Un investigador en seguridad ha revelado cómo expertos lograron engañar a ChatGPT para que compartiera una clave de producto de Windows utilizando un prompt que cualquier persona puede reproducir. Marco Figueroa explicó que, mediante un «juego de adivinanzas» con GPT-4, consiguieron sortear las barreras de seguridad diseñadas para impedir que la inteligencia artificial revelara datos sensibles, obteniendo en al menos un caso una clave para Wells Fargo Bank.
Los investigadores también lograron obtener una clave de Windows válida para autenticar de forma ilegítima el sistema operativo de Microsoft sin pagar por ella, lo que pone en evidencia la gravedad de la vulnerabilidad. Para ello, ocultaron términos como «número de serie de Windows» dentro de etiquetas HTML para evadir los filtros de ChatGPT, que habitualmente bloquean esas respuestas. Además, enmarcaron la solicitud como un juego, usando la frase «Me rindo» como disparador, lo que facilitó que la IA revelara la información oculta, aprovechando un comportamiento lógico del modelo.
Figueroa explicó que la clave del ataque fue precisamente esa frase, que actuó como un disparador que obligaba a la IA a revelar datos previamente ocultos. La vulnerabilidad radica en que GPT-4 sigue literalmente las instrucciones del prompt y que las medidas de seguridad existentes se enfocan más en detectar palabras clave que en comprender el contexto o identificar engaños. Aunque los códigos compartidos no son únicos, muchos ya habían sido publicados en plataformas y foros en línea.
Este hallazgo, aunque en principio no representa un peligro inminente para la seguridad, evidencia que actores maliciosos podrían adaptar esta técnica para obtener información personal, URL peligrosas o contenido sensible y para adultos, lo que aumenta el riesgo de ataques sociales o de ingeniería social. Figueroa hace un llamado a los desarrolladores de IA para que anticipen y diseñen defensas contra estas estrategias, incorporando lógica capaz de detectar y contrarrestar el framing engañoso. La protección ante estas vulnerabilidades debe evolucionar para evitar que los modelos se utilicen de forma maliciosa en el futuro.