Investigación de OpenAI revela que los modelos de IA alucinan más cuando son más inteligentes, debido a su tendencia a ofrecer afirmaciones con mayor confianza
La investigación de OpenAI revela que los modelos de IA más avanzados tienden a confiar excesivamente en sus respuestas, aumentando el riesgo de errores peligrosos.
Recientemente, una investigación de OpenAI ha puesto en evidencia una de las debilidades más frecuentes en los asistentes de inteligencia artificial actuales: las alucinaciones o respuestas incorrectas en las que los modelos confían excesivamente. Aunque estas fallas han disminuido en algunos casos, siguen siendo frecuentes, especialmente en tareas de generación de imágenes y en chatbots.
Este comportamiento se debe en gran parte a cómo se están evaluando y midiendo estos modelos. Actualmente, los benchmarks y las tablas de liderazgo penalizan que los modelos reconozcan su incertidumbre diciendo «no sé», lo que fomenta que siempre ofrezcan una respuesta aunque no estén completamente seguros. De esta forma, los modelos se ven incentivados a generar respuestas confiadas que, en ocasiones, pueden estar equivocadas, especialmente en temas críticos como salud o finanzas.
Un hallazgo importante de la investigación indica que los modelos con mayor capacidad de razonamiento, considerados «más inteligentes», en realidad tienden a alucinar más. Esto sucede porque producen una mayor cantidad de afirmaciones, incrementando las oportunidades de cometer errores. Por lo tanto, la lógica de que un modelo más «listo» es también más honesto con sus limitaciones no se sostiene en la práctica.
Ante esto, los expertos proponen que el enfoque en la evaluación y medición de los modelos de IA debe evolucionar. En lugar de penalizar las respuestas que expresen incertidumbre, sería más efectivo premiar respuestas calibradas que incluyan flags de duda o que puedan referenciar fuentes confiables. Esto permitiría que los chatbots sean más conservadores y transparentes, reduciendo significativamente los errores peligrosos y mejorando la seguridad en aplicaciones sensibles.
Para la ciudadanía, esto significa que se debe considerar la información proporcionada por estos asistentes como una sugerencia inicial y no como la verdad definitiva. La prudencia y la verificación de datos continúan siendo esenciales. Por su parte, el personal desarrollador está llamado a replantear los criterios de éxito e implementar mecanismos que permitan a los modelos admitir «no saber» cuando corresponda, en lugar de arriesgarse a ofrecer respuestas incorrectas con una confianza excesiva.