OpenAI evalúa GPT-5 con nuevo estándar que lo enfrenta a expertos humanos en tareas reales y diversas ocupaciones
OpenAI implementa un nuevo estándar de evaluación que posiciona a GPT-5 frente a expertos en tareas reales, complejas y variadas del mundo laboral.
OpenAI, la empresa detrás de ChatGPT, ha anunciado un nuevo estándar de evaluación para medir el rendimiento de su modelo GPT-5, que consiste en enfrentarlo directamente con expertos humanos en diversas ocupaciones. Este nuevo conjunto de pruebas, llamado GDPval, incluye 1.320 tareas especializadas, cuidadosamente diseñadas y revisadas por profesionales con más de 14 años de experiencia promedio en distintos campos.
El objetivo de GDPval es determinar qué tan cerca está GPT-5 de superar a los expertos humanos en tareas del mundo real y económicamente valiosas, como enfermería, finanzas, ingeniería o periodismo. A diferencia de las evaluaciones tradicionales basadas en indicaciones de texto simples, estas tareas incluyen archivos de referencia, contexto y entregables en diversos formatos —como documentos, diapositivas, diagramas, hojas de cálculo y contenido multimedia—, lo que las hace más realistas y representativas del trabajo profesional.
El conjunto completo de GDPval cubre 44 ocupaciones en nueve industrias diferentes. Cada tarea se basa en productos laborales reales, como informes legales, planos de ingeniería, conversaciones de atención al cliente o planes de cuidados en enfermería. Este enfoque busca evaluar cómo los modelos de inteligencia artificial pueden apoyar y complementar al personal en su labor cotidiana.
OpenAI aclara que GDPval es una evaluación de tipo único y no evalúa tareas que requieran construir contexto mediante múltiples iteraciones o mejorar productos en fases sucesivas. Sin embargo, la compañía espera que futuras versiones de estas pruebas incluyan flujos de trabajo más interactivos y tareas de mayor complejidad, reflejando mejor los desafíos del trabajo real.
El anuncio de OpenAI subraya que modelos como GPT-5 y otros esfuerzos, como Claude Opus 4.1 de Anthropic, ya alcanzan niveles de calidad similares a los profesionales en ciertas tareas laborales. Aunque aún queda un largo camino por recorrer y se reconoce que todavía cometen errores frecuentes, la expectativa es que la inteligencia artificial transforme el panorama laboral en las próximas décadas. La empresa destaca que siempre habrá espacio para el trabajo humano, aunque en roles y formas diferentes, en un futuro cada vez más influenciado por la tecnología.