OpenAI lanza o3 y o4-mini, modelos de lenguaje avanzados con capacidades multimodales y razonamiento mejorado

OpenAI presenta o3 y o4-mini, modelos que integran reconocimiento visual, razonamiento avanzado y herramientas multimodales para potenciar la inteligencia artificial.

Publicado: 16-04-2025 21:52

En una semana marcada por novedades en el ámbito de la inteligencia artificial, OpenAI ha anunciado el lanzamiento de dos nuevos modelos de lenguaje con capacidades avanzadas de razonamiento y análisis multimodal: o3 y o4-mini. Aunque el modelo o3 había sido presentado anteriormente en un anuncio a finales del año pasado y posteriormente confirmado en febrero, finalmente ha sido puesto a disposición del público, destacándose como el modelo más potente hasta la fecha de la compañía. Recientemente, OpenAI también presentó o4-mini, una versión más pequeña y eficiente, diseñada para ofrecer buenas capacidades en matemáticas y programación, pero con menor coste económico en su uso.

Estos nuevos modelos integran por primera vez herramientas como búsqueda en la web, interpretación de código en Python y análisis de datos, incrustándolas en su proceso de razonamiento. Además, destacan por su capacidad de análisis visual, permitiendo no solo reconocer imágenes y texto en ellas, sino también interactuar con ellas: girarlas, ampliarlas, recortarlas o responder a preguntas más abstractas relacionadas con su contenido. Gracias a esto, o3 y o4-mini pueden abordar tareas como reconocimiento de texto en imágenes borrosas, análisis de contenido en fotografías de referencia, resolución de problemas académicos o interpretación de escenas complejas, incluso en casos de baja calidad o ángulos alejados.

Por ejemplo, estos modelos pueden identificar y extraer información de carteles en fotos, determinar horarios en paradas de autobús a partir de imágenes, resolver acertijos en notas manuscritas, o explicar confusiones como si falta un número o una letra en un dibujo, rotando y manipulando la imagen para facilitar su análisis. Esta versatilidad y precisión en el análisis visual representan un avance significativo, permitiendo interacciones más naturales y profundas con contenidos multimedia.

En términos de rendimiento, o3 se ha destacado en pruebas como el benchmark AIME 2025, que evalúa el razonamiento matemático avanzado, superando en un 20% a su predecesor o1 en tareas complejas y logrando resultados prometedores en otros tests especializados como SWE-Bench para resolución de problemas de ingeniería de software. Por su parte, o4-mini demuestra una excelente relación entre rendimiento y eficiencia, siendo especialmente competente en matemáticas y programación, con un consumo mucho menor de recursos respecto al o3.

OpenAI ha confirmado que estos modelos están disponibles desde hoy en los entornos de ChatGPT Plus, Pro y Team, sustituyendo a las versiones anteriores como o1 y o3-mini. Además, los usuarios que acceden de manera gratuita pueden probar o4-mini activando la función de 'Razonar' antes de ingresar sus solicitudes, lo que marca un importante avance en la accesibilidad y funcionalidad de estas herramientas. Aunque la compañía no ha realizado comparaciones directas con otros grandes actores del sector, los resultados en benchmarks indican que o3 y o4-mini se posicionan en la vanguardia del razonamiento y procesamiento multimodal en inteligencia artificial.