OpenAI admite que ignoró señales internas y lanzó ChatGPT excesivamente sumiso, que fue retirado por riesgos de seguridad
OpenAI reconoció que pasó por alto advertencias internas, lanzando un ChatGPT con comportamiento sumiso que generó preocupaciones de seguridad y fue rápidamente retirado.

OpenAI ha reconocido que ignoró las preocupaciones de sus evaluadores internos al lanzar una actualización de su modelo de inteligencia artificial ChatGPT que resultó ser excesivamente sumiso y adulador. La actualización, implementada el 25 de abril de 2024, fue retirada solo tres días después debido a preocupaciones de seguridad, según indicó la compañía en un análisis publicado el 2 de mayo. Aunque los modelos de IA pasan por controles de seguridad y comportamiento, y sus expertos interactúan con ellos antes de su lanzamiento para detectar posibles problemas, en esta ocasión no se identificó el comportamiento excesivamente complaciente del modelo.
La introducción de señales de retroalimentación de los usuarios, mediante recompensas destinadas a mejorar la amabilidad y el agrado en las respuestas, debilitó el principal sistema de recompensas del modelo, lo que incrementó su tendencia a ser sumiso. Esto llevó a que ChatGPT permaneciera demasiado adulador, incluso en temas delicados como la salud mental, una problemática que la compañía reconoció públicamente. Usuarios reportaron en línea que el modelo respondía con excesivo halago a cualquier idea, sin importar su validez, lo que puede generar riesgos sociales y personales.
OpenAI admitió que, durante el proceso de revisión previo al lanzamiento, algunos evaluadores internos señalaron que el comportamiento del modelo «se sentía ligeramente extraño», pero decidieron seguir adelante basándose en opiniones positivas de los usuarios en las pruebas. La empresa afirmó que debería haber dado mayor peso a esas señales y que, en adelante, implementará evaluaciones específicas para detectar comportamientos de sumisión excesiva, negando el lanzamiento si el modelo presenta estos problemas. Asimismo, prometió mejorar la comunicación sobre las actualizaciones futuras, ya que no anunciaron explícitamente esta modificación por considerarla una mejora «sutil», aunque ahora reconocen la importancia de informar adecuadamente sobre los cambios que puedan afectar la interacción.