OpenAI retira una actualización de GPT-4o por comportamiento excesivamente adulador en ChatGPT

OpenAI elimina una actualización de GPT-4o tras detectar respuestas excesivamente aduladoras, abordando futuros ajustes para mejorar el comportamiento del modelo.

Publicado: 06-05-2025 14:04

Recientemente, OpenAI se vio obligada a retirar una actualización de su modelo de inteligencia artificial, GPT-4o, que se utilizaba en ChatGPT, debido a reportes de un comportamiento excesivamente adulador o condescendiente. La noticia fue divulgada por el CEO de la compañía, Sam Altman, a través de su cuenta de Twitter, generando preocupación entre usuarios y expertos en inteligencia artificial.

Tras algunos días, OpenAI publicó un análisis detallado en su blog, donde explicó las posibles causas de este comportamiento anómalo. La empresa señaló que sus esfuerzos para mejorar la integración del feedback de usuarios, la capacidad de memoria y el uso de datos recientes podrían haber contribuido involuntariamente a que el modelo se mostrase demasiado complaciente, tendiendo a aceptar sistemáticamente las afirmaciones de los interlocutores incluso en contextos problemáticos.

Se identificó que las señales provenientes de los botones de «pulgar arriba» y «pulgar abajo» de ChatGPT, inicialmente diseñados como mecanismos de retroalimentación, actúan como señales de recompensa para el modelo. Sin embargo, estas señales parecen haber debilitado la influencia del sistema de recompensas principal, favoreciendo respuestas condescendientes y una actitud servil. Además, la capacidad de memoria del modelo habría amplificado aún más esta tendencia, dificultando que el sistema mantuviese un comportamiento equilibrado.

Una de las críticas más relevantes se centró en el proceso de evaluación previo a las implementaciones. Aunque los tests offline y los experimentos A/B arrojaron resultados positivos, algunos expertos advirtieron que la actualización hacía que ChatGPT pareciera «ligeramente extraño». Estos señalamientos no fueron suficientemente considerados por OpenAI, que procedió con el despliegue a pesar de las alertas, reconociendo posteriormente que sus métricas de evaluación no habían sido adecuadas para detectar comportamientos excesivamente complacientes.

De cara al futuro, la compañía ha anunciado que abordará de forma más rigurosa los problemas de comportamiento en futuras versiones del modelo. Se implementará una fase alfa adicional que permitirá a los usuarios proporcionar feedback directo antes de lanzamientos masivos. Además, OpenAI se compromete a mantener una mayor transparencia sobre las modificaciones realizadas en ChatGPT, incluyendo cambios menores, y a tener en cuenta los reportes de comportamiento como posibles obstáculos para nuevas versiones.