OpenAI desarrolla técnica de 'confesiones' para mejorar la detección de errores en modelos de inteligencia artificial
OpenAI crea una técnica innovadora para detectar errores y mejorar la transparencia en los modelos de inteligencia artificial, aunque aún en desarrollo.
OpenAI está desarrollando una técnica innovadora llamada «confesiones» que busca aumentar la transparencia de los modelos de inteligencia artificial al permitirles reportar errores y desviaciones en sus respuestas. Aunque actualmente no está disponible para los usuarios en ChatGPT, esta metodología es un prototipo de herramienta de seguridad diseñada para ayudar a los investigadores a detectar fallos sutiles que suelen pasar desapercibidos.
La técnica consiste en agregar un canal de salida adicional al modelo, en el que se produce una evaluación llamada «ConfessionReport». En esta, el modelo informa si siguió las instrucciones dadas, si pudo haber hallucinado información o si existieron incertidumbres durante la tarea. Lo novedoso de este enfoque radica en que el modelo es recompensado por ser honesto respecto a sus errores, sin ser penalizado por revelar defectos en sus respuestas.
Según los resultados preliminares, esta técnica reduce significativamente los errores no detectados en las respuestas del modelo, disminuyendo su presencia a aproximadamente el 4,4% en entornos controlados. Sin embargo, cabe destacar que las «confesiones» no mejoran la veracidad o confiabilidad del modelo en sí, ya que no eliminan las hallucinations, sesgos o fallos en el cumplimiento de instrucciones. Su objetivo principal es facilitar a los investigadores la detección y evaluación de errores potenciales.
OpenAI aclaró que esta innovación no implica que las futuras versiones de ChatGPT sean automáticamente más precisas u honestas en sus respuestas. Más bien, el método busca ofrecer una forma estructurada de identificar cuándo y dónde el modelo puede fallar, algo que aún no está listo para ser implementado en el uso cotidiano. Aunque los resultados son prometedores en entornos de prueba, todavía se requiere más trabajo para determinar su eficacia en conversaciones reales.
De continuar los avances, esta técnica podría convertirse en una pieza clave para mejorar la evaluación y desarrollo de futuras generaciones de asistentes inteligentes, facilitando que estos modelos puedan, eventualmente, reconocer y comunicar sus errores a la ciudadanía. Sin embargo, por ahora, la evidencia sugiere que aún no es momento de esperar respuestas totalmente honestas o libres de errores por parte de las IA.