Modelos de ChatGPT de OpenAI vulnerables a ataques que facilitan instrucciones peligrosas a pesar de sus barreras de seguridad

TecnologíaChat GPT

Modelos de ChatGPT de OpenAI vulnerables a ataques que facilitan instrucciones peligrosas a pesar de sus barreras de seguridad

A pesar de sus barreras de seguridad, modelos de ChatGPT aún pueden ser manipulados para generar instrucciones peligrosas, según recientes investigaciones.

Descripción

OpenAI ha desarrollado modelos de ChatGPT con barreras de seguridad conocidas como «guardrails», diseñadas para impedir que los usuarios generen información potencialmente peligrosa, como instrucciones para crear armas biológicas o nucleares. Sin embargo, estos sistemas no son completamente inmunes. En recientes pruebas, NBC News logró manipular varios de los modelos más avanzados de OpenAI, incluyendo GPT-5-mini y o4-mini, mediante ataques de jailbreak, obteniendo respuestas que contenían instrucciones para fabricar explosivos caseros, utilizar agentes químicos para causar sufrimiento e incluso pasos para construir una bomba nuclear.

Los ataques de jailbreak consisten en sencillos prompts o indicaciones que los usuarios pueden enviar a los chatbots para burlar sus protocolos de seguridad. La investigación de NBC News indicó que, en muchas ocasiones, estos modelos son vulnerables y cumplen con las solicitudes peligrosas en más del 90% de los casos en modelos como oss20b y oss120b, que además son de código abierto y accesibles para desarrolladores y científicos. Estas plataformas abiertas facilitan que hackers, estafadores y propagandistas en línea exploten estos modelos con fines maliciosos.

Los responsables de OpenAI han informado que modelos como o4-mini pasaron rigurosas pruebas de seguridad antes de su lanzamiento en abril, y que, en general, sus modelos están diseñados con múltiples capas de protección, incluyendo la posible alerta a personal o agencias de seguridad en casos de intención de causar daño. No obstante, la existencia de jailbreaks demuestra que estas salvaguardas pueden ser superadas, especialmente en modelos abiertos. Por ejemplo, en las pruebas de NBC, dos modelos open source respondieron en el 97,2% y el 93% de los casos, respectivamente, a solicitudes para crear sustancias peligrosas.

Expertos en seguridad y bioética advierten que la fácil accesibilidad a información peligrosa gracias a estos modelos puede aumentar significativamente el riesgo de bioterrorismo y otros delitos. La creciente capacidad de los chatbots para ofrecer una asesoría «como un equipo de Ph.D.» incluso a usuarios sin conocimientos especializados incrementa las preocupaciones sobre que grupos no estatales puedan acceder y usar esta tecnología para fabricar armas biológicas o químicas, incluso a escala casera, sin necesidad de contratar expertos en la materia.

La regulación en Estados Unidos sobre el uso de estas tecnologías aún es débil, ya que las compañías responsables actúan principalmente en un marco de autorregulación. Sin embargo, investigaciones muestran que es cada vez más difícil mantener los controles frente a modelos de inteligencia artificial, especialmente los de código abierto, que no están sometidos a los mismos estándares de seguridad. Expertos como Lucas Hansen, de CivAI, coinciden en la necesidad de establecer un regulador independiente que garantice que las empresas implementen las medidas suficientes para prevenir el uso malicioso de estos avances tecnológicos, ya que la competencia global y la rápida evolución de la IA podrían dejar en desventaja a quienes no adopten protocolos más estrictos.