Radware descubre vulnerabilidad ShadowLeak en ChatGPT que permite la filtración de datos personales mediante prompt injection y codificación Base64

TecnologíaChat GPT

Radware descubre vulnerabilidad ShadowLeak en ChatGPT que permite la filtración de datos personales mediante prompt injection y codificación Base64

Una vulnerabilidad en ChatGPT, llamada ShadowLeak, permite a atacantes filtrar datos personales usando técnicas avanzadas y engañar al sistema.

Descripción

Investigadores de la empresa Radware han descubierto una vulnerabilidad importante en los modelos de lenguaje grande (LLM), específicamente en el agente Deep Research Agent de ChatGPT. Esta falla, llamada ShadowLeak, permite a atacantes explotar las capacidades del sistema para acceder y filtrar datos personales almacenados en cuentas externas mediante técnicas de prompt injection y codificación en Base64.

El método empleado por los atacantes consiste en enviar correos electrónicos maliciosos que contienen un prompt oculto, diseñado para engañar al modelo y hacer que exfiltre información sensible sin distinguir entre comandos y datos. Estos correos, que parecen normales, incluyen instrucciones codificadas en Base64 que evaden los filtros de seguridad del sistema, lo que facilita que éste acepte y ejecute tareas peligrosas, como acceder a correos electrónicos del usuario y recopilar información confidencial.

El hallazgo fue reportado a OpenAI a través del portal BugCrowd el 18 de junio, pero la vulnerabilidad no fue corregida hasta aproximadamente seis semanas después, siendo oficialmente solucionada el 3 de septiembre de 2025. Durante ese periodo, OpenAI no informó públicamente sobre el exploit, aunque su CEO, Sam Altman, admitía en julio posibles riesgos relacionados con el acceso a correo electrónico sin revelar la existencia específica de ShadowLeak.

La técnica utilizada por los atacantes demuestra una vulnerabilidad inherente a los sistemas de LLM, que carecen de la capacidad para diferenciar claramente entre instrucciones y datos, especialmente cuando estos están disfrazados mediante codificación o técnicas de ocultamiento. La combinación de prompt injection y codificación en Base64 facilita que el modelo ejecute comandos peligrosos, como acceder a contenidos confidenciales, sin que el sistema pueda detectarlo de forma efectiva.

Este fallo pone de manifiesto los riesgos asociados al uso de inteligencia artificial en contextos donde la privacidad y la protección de datos son críticos, resaltando la necesidad de reforzar los filtros y mecanismos de detección para evitar que modelos de gran escala sean utilizados como herramientas para filtrar información sensible. Los expertos advierten que, aunque la tecnología sigue avanzando, los desarrolladores deben priorizar la seguridad para impedir que estas vulnerabilidades se exploten con fines maliciosos en el futuro.