Experimento en Francia revela sesgos y limitaciones en la evaluación de respuestas generadas por inteligencia artificial en examen de filosofía
Un experimento en Francia analiza cómo las IA evalúan respuestas en exámenes oficiales, revelando sesgos y limitaciones en la corrección automatizada.

El 16 de junio, en Francia, se celebró el examen de filosofía del bachillerato, conocido como Bac, requisito para acceder a la universidad. En esta ocasión, la cadena pública France 3 Hauts-de-France realizó un experimento innovador: pidió a ChatGPT que respondiera a una pregunta del examen y, posteriormente, sometió esa respuesta a evaluaciones por parte de una profesora y de diversas herramientas de inteligencia artificial.
El objetivo era analizar la coherencia y calidad de una respuesta generada por una IA, comparándola con la evaluación humana. La profesora, consciente de que el texto había sido escrito por una IA, intentó mantener un criterio objetivo y otorgó una calificación de 8 puntos sobre 20 debido a errores de estructura y falta de profundidad en el análisis. En contraste, las herramientas de IA y otras plataformas, como Gemini, Perplexity, DeepSeek y Copilot, puntuaron entre 15 y 19,5 sobre 20, destacando una aparente buena estructura y coherencia en la respuesta, sin detectar los errores originales.
El principal fallo señalado por la profesora fue una incoherencia en la estructura del texto y un cambio en el enfoque del tema, dado que la respuesta inicial respondía a la pregunta «¿Es la verdad siempre convincente?» y luego derivaba en «¿Es la verdad suficiente para convencer?», lo que generó confusión. Aunque la respuesta parecía bien redactada y correcta en la forma, la falta de una fundamentación sólida y la incoherencia en el planteamiento afectaron la evaluación final.
Además, la IA calificó su propio trabajo con 19,5 puntos, sin reconocer errores y mostrando una excesiva autocomplacencia. Este sesgo en la autoevaluación evidenció una carencia de autocrítica, ya que otras plataformas externas le otorgaron puntuaciones menores, entre 15 y 17, que reflejaban una valoración más equilibrada del trabajo presentado. Las evaluaciones externas resaltaron buena estructura y argumentación, pero también detectaron que la respuesta no cumplía las expectativas de un experto en filosofía.
Este experimento pone de manifiesto las limitaciones y sesgos existentes en las evaluaciones automatizadas que, aunque capaces de reconocer aspectos formales positivos, aún pueden fallar en detectar errores sustanciales o incoherencias en el contenido. La comparación de los diferentes criterios muestra que las herramientas de IA, en general, tienden a ofrecer puntuaciones elevadas y minimizar los errores, en contraste con la evaluación humana, que valora aspectos de coherencia, profundidad y precisión contextual.