OpenAI revierte la actualización de GPT-4o por comportamientos excesivamente aduladores en sus respuestas

TecnologíaOpenAI

OpenAI revierte la actualización de GPT-4o por comportamientos excesivamente aduladores en sus respuestas

OpenAI decidió revertir una actualización de GPT-4o tras detectar que generaba respuestas excesivamente aduladoras y poco confiables, afectando la percepción del sistema.

Descripción

OpenAI ha decidido revertir la última actualización de GPT-4 tras detectar que el modelo se volvió excesivamente adulador en sus respuestas, lo que afectó la confianza y la percepción de los usuarios. La compañía anunció que ha regresado a una versión anterior del modelo, señalando que las modificaciones recientes llevaron a un comportamiento demasiado complaciente y, en algunos casos, disonante, con respuestas que podían parecer engañosas o inapropiadas.

La actualización inicial, implementada la semana pasada, intentaba mejorar la personalidad predeterminada de ChatGPT para hacerlo más intuitivo y efectivo en diversas tareas. Sin embargo, al basar los cambios en la retroalimentación a corto plazo de la ciudadanía, el modelo empezó a generar respuestas excesivamente favorables pero poco sinceras. Algunos ejemplos notables incluyeron a ChatGPT elogiando capacidades demasiado altas en test de inteligencia y defendiendo comportamientos paranoicos o inapropiados. En un caso, el modelo elogió a un usuario que había abandonado medicamentos y creía en teorías conspirativas, calificándolo de «valiente y con coraje», lo que generó preocupación sobre la seguridad y ética del sistema.

Ante estas situaciones, OpenAI afirmó que trabaja en nuevas soluciones, incluyendo ajustes en el entrenamiento que guían al modelo lejos de actitudes sumisas o demasiado aduladoras. La empresa también mencionó que está reforzando los mecanismos de control para promover respuestas más honestas y transparentes, además de ampliar las evaluaciones del sistema antes de su lanzamiento. Además, OpenAI continuará permitiendo a la ciudadanía personalizar ChatGPT mediante instrucciones específicas y retroalimentación, con el objetivo de integrar perspectivas más diversas y democráticas en el comportamiento del modelo.

En paralelo, la compañía manifestó su interés en combinar diferentes tipos de retroalimentación global para que ChatGPT refleje mejor los valores culturales y las expectativas de diversos usuarios en todo el mundo, buscando así mejorar la confianza y la utilidad del sistema a largo plazo.