OpenAI implementa medidas reforzadas para proteger ChatGPT Atlas contra ataques de inyección de prompts en navegadores web

TecnologíaOpenAI

OpenAI implementa medidas reforzadas para proteger ChatGPT Atlas contra ataques de inyección de prompts en navegadores web

OpenAI refuerza la seguridad de ChatGPT Atlas ante el creciente riesgo de ataques por inyección de prompts en navegadores web.

Descripción

OpenAI advierte que la inyección de prompts se está convirtiendo en un riesgo de seguridad central para los agentes de inteligencia artificial diseñados para operar en navegadores web. La compañía detectó ataques específicos y, como medida preventiva, lanzó una actualización de seguridad para ChatGPT Atlas, que incluye un modelo entrenado de forma adversarial y medidas reforzadas para protegerse contra estos ataques.

El agente en modo navegador navega por páginas web, realiza clics y escribe de manera similar a un usuario. Esta característica aumenta su utilidad, pero también su atractivo para los atacantes, ya que puede acceder a correos electrónicos, documentos y servicios en línea, elevando su valor como objetivo. Por ello, la seguridad del sistema es especialmente importante, dado el potencial de explotar su mayor movilidad y acceso a información sensible.

Para descubrir vulnerabilidades antes de que sean explotadas desde fuera, OpenAI desarrolló un atacante automatizado que utiliza modelos de lenguaje y aprendizaje por refuerzo. Este sistema simula cómo un atacante podría explotar el sistema en varias etapas, creando estrategias de inyección de prompts que podrían llevar al agente a realizar acciones perjudiciales complejas, en lugar de limitarse a generar textos no deseados o activar funciones específicas.

El atacante automatizado puede iterar sobre las inyecciones enviándolas a un simulador que realiza un «rollout contrafactual» del comportamiento del agente ante contenido malicioso. Este simulador proporciona un seguimiento completo de las decisiones y acciones del agente, permitiendo al atacante refinar sus estrategias y anticipar posibles vulnerabilidades. Este acceso interno brinda a OpenAI una ventaja para mantenerse un paso por delante de los posibles atacantes.

Un ejemplo ilustrativo mostrado por la compañía es cómo un correo electrónico malicioso, con instrucciones engañosas, puede inducir al agente a enviar una carta de renuncia en lugar de redactar una respuesta habitual. Aunque se trata solo de un escenario hipotético, evidencia cómo la capacidad de manejar tareas y decisiones en línea aumenta el riesgo y la complejidad de proteger estos sistemas frente a ataques sofisticados.

OpenAI no es la única entidad que advierte sobre el riesgo persistente de la inyección de prompts. El Centro Nacional de Seguridad Cibernética del Reino Unido alertó recientemente que estos ataques podrían ser imposibles de mitigar por completo, recomendando a las organizaciones reducir los riesgos y limitar el impacto de posibles vulnerabilidades.

Ante este panorama, OpenAI ha incrementado su enfoque en la preparación y evaluación de riesgos asociados a la inteligencia artificial, incluyendo su dimensión en la ciberseguridad. El CEO, Sam Altman, ha mencionado que los modelos de IA plantean «desafíos reales», y la compañía ha establecido un equipo dedicado a estudiar posibles amenazas, desde ataques de phishing hasta escenarios catastróficos más complejos. La proliferación de capacidades avanzadas en estos sistemas exige una comprensión más matizada y medidas de protección más robustas para garantizar que los beneficios se disfruten sin poner en peligro la seguridad.