OpenAI explica que las alucinaciones en modelos de lenguaje son resultados estadísticos y no percepciones humanas
OpenAI aclara que las "alucinaciones" en los modelos de lenguaje son errores estadísticos, no percepciones humanas, y propone medidas para mejorar su fiabilidad.
El término «alucinación» en el ámbito de la inteligencia artificial (IA) es relativamente reciente y se ha popularizado en los últimos años para describir una característica de los modelos de lenguaje que, con alta confianza, generan respuestas falsas o contradictorias. Sin embargo, este concepto ha sido objeto de críticas porque traslada un estado psicológico profundamente humano a las máquinas, lo que puede generar confusión y desinformación sobre las capacidades de estos sistemas.
Recientemente, OpenAI ha publicado un documento titulado «Why Language Models Hallucinate» en el que busca desmitificar esta metáfora y explicar que las alucinaciones no son más que resultados estadísticos. Los autores definen las alucinaciones como «declaraciones plausibles pero falsas o contradictorias, producidas por los modelos de lenguaje con alta confianza», diferenciándolas claramente de las percepciones humanas, que involucran procesos cognitivos y emocionales.
El informe destaca que estos errores son inherentes a la naturaleza probabilística del entrenamiento de los modelos, afectado en gran medida por la calidad, origen y posibles manipulaciones de los datos utilizados. Aunque los modelos aprenden a partir de vastos corpus de texto y código disponibles públicamente, estas bases contienen errores, información desactualizada o incluso datos manipulados, que el modelo hereda en su respuesta. Además, la participación humana en aspectos como la evaluación y el ajuste de respuestas, esencial en el proceso de refuerzo, puede introducir sesgos o afectar la percepción de fiabilidad.
Uno de los puntos críticos abordados por OpenAI es el sesgo generado por los sistemas de evaluación y las métricas tradicionales, en las que los modelos son incentivados a responder siempre, incluso cuando desconocen la verdad, para maximizar sus puntuaciones. Este enfoque fomenta que los modelos prioricen las respuestas y no admitan ignorancia, aumentando así la probabilidad de alucinaciones.
El documento también señala que los rankings y benchmarks utilizados en la industria como criterios de calidad han incentivado a las empresas a optimizar sus modelos para ciertos comportamientos, como responder rápido o de manera convincente, aun sin verificar la veracidad. Esta dinámica puede profundizar estructuralmente las alucinaciones, por lo que sugerir cambios en estas métricas, como la introducción de «confianza en las respuestas», sería fundamental para mejorar la fiabilidad de los modelos.
En concreto, OpenAI propone incorporar «objetivos de confianza» que recompensen al modelo solo cuando tenga un nivel de seguridad por encima de cierto umbral. Si la confianza es baja, el modelo debería abstenerse de responder o ser penalizado, reduciendo así la tendencia a generar respuestas incorrectas. Sin embargo, implementar esta estrategia presenta desafíos, ya que los incentivos en la industria y las métricas de evaluación están profundamente entrelazados con intereses comerciales y de mercado.
Por otra parte, los expertos advierten que resolver la problemática de las alucinaciones no solo exige enfoques técnicos, sino también consideraciones éticas y regulatorias. La dificultad reside en que muchas decisiones relacionadas con la confiabilidad y el control de los modelos involucran aspectos de privacidad, discriminación y seguridad, que complican la implementación de soluciones como perfiles de usuario o filtros éticos.
En resumen, aunque el artículo de OpenAI desmitifica el concepto de alucinaciones y propone soluciones concretas, también evidencia que la transparencia y la mejora de la calidad de los datos de entrenamiento siguen siendo aspectos críticos y pendientes en el desarrollo de IA confiable. La publicación forma parte de una estrategia de confianza, en medio de desafíos legales y reputacionales, que busca fortalecer la percepción de autoridad y seriedad de estas tecnologías a nivel mundial.