Investigación revela que modelos como ChatGPT no detectan artículos retractados ni errores en evaluaciones académicas

TecnologíaChat GPT

Investigación revela que modelos como ChatGPT no detectan artículos retractados ni errores en evaluaciones académicas

Un estudio revela limitaciones en la capacidad de modelos como ChatGPT para identificar investigaciones retractadas o errores en evaluaciones académicas.

Descripción

Un nuevo estudio ha investigado la capacidad de los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, para detectar artículos que han sido retractados o desacreditados al evaluar su calidad. La investigación, dirigida por el profesor Mike Thelwall y la doctora Irini Katsirea, ha sido publicada en la revista Learned Publishing y forma parte del proyecto «Ciencia poco confiable: desenredando el impacto de la mala interpretación de los medios tradicionales», iniciado en octubre de 2024.

El equipo identificó 217 estudios académicos que habían sido retractados o presentaban otros problemas, todos con altas puntuaciones en métricas de impacto, y solicitó a ChatGPT que evaluara la calidad de estos artículos en 30 ocasiones cada uno. Los resultados revelaron que ninguno de los 6.510 informes generados mencionó las retractaciones o errores relevantes de los artículos; en cambio, 190 de estos trabajos obtuvieron calificaciones relativamente altas, clasificándolos como de liderazgo mundial o excelencia internacional. La única crítica que hizo el modelo a los artículos con menor puntuación fue su debilidad académica, sin referirse a las retractaciones o errores específicos; en cinco casos, incluso describió el tema como «controvertido».

En una segunda fase, el equipo extrajo 61 afirmaciones de los artículos retractados y preguntó a ChatGPT, en diez ocasiones por cada una, si dichas declaraciones eran ciertas. El modelo respondió afirmativamente o con un «sí» definitivo en aproximadamente dos tercios de los casos, incluso en declaraciones refutadas hace más de una década. Esto demuestra que los modelos de lenguaje no identifican retractaciones ni errores y son capaces de afirmar con confianza información falsa.

Los investigadores concluyen que estos hallazgos resaltan la importancia de verificar cuidadosamente la información generada por estos sistemas cuando se usan para buscar datos o realizar análisis académicos. El profesor Thelwall expresó su preocupación por los resultados y destacó que la incapacidad de ChatGPT para reconocer investigaciones retractadas es un aspecto que requiere atención. Además, hizo un llamado a quienes desarrollan estas tecnologías para mejorar su capacidad de detección y recomendó a las personas usuarias ser cautelosas al confiar en la información proporcionada por los modelos de lenguaje, incluso cuando parece plausible y bien fundamentada.