OpenAI presenta los modelos o3 y o4-mini con capacidades multimodales y mayor autonomía en la selección de herramientas

OpenAI lanza modelos avanzados que combinan razonamiento, integración de imágenes y selección autónoma de herramientas para potenciar la inteligencia artificial multimodal.

Publicado: 17-04-2025 12:38

OpenAI ha anunciado una actualización significativa de su modelo ChatGPT con la introducción de los nuevos modelos o3 y o4-mini, disponibles para usuarios de todos los niveles, incluyendo Pro, Plus, Team y usuarios gratuitos. Estos modelos mejoran notablemente el rendimiento y la velocidad en tareas de razonamiento, superando a versiones anteriores como o3-mini y o1, y ofrecen una capacidad de decisión autónoma sobre qué herramientas utilizar para completar las consultas.

Una de las novedades más importantes es que estos modelos ahora pueden integrar y razonar con imágenes por primera vez, permitiendo, por ejemplo, identificar modelos de autos y estimar su valor futuro mediante una sola consulta. Además, los modelos pueden decidir automáticamente qué herramientas emplear, como navegación web, análisis de imágenes, código en Python, generación de imágenes, automatizaciones, búsqueda y memoria, ajustándose a las necesidades específicas de cada tarea.

Cuando se realiza una consulta compleja, los modelos o3 y o4-mini muestran cada paso del proceso, las herramientas utilizadas y los razonamientos que llevan a la respuesta final, presentando además enlaces a las fuentes consultadas. Una vez completado el proceso, desaparecen las notas intermedias y se muestra un informe detallado con los resultados, permitiendo a los usuarios comprender el método y las fuentes que sustentan la respuesta.

Este avance representa un paso hacia la inteligencia artificial multimodal y hacia una mayor autonomía en la selección de herramientas por parte de los modelos, anticipando futuras innovaciones como ChatGPT 5. La capacidad de integrar y razonar con imágenes, junto con el uso inteligente de diferentes herramientas, sitúa a estos modelos como los más avanzados de OpenAI en términos de razonamiento y utilidad, abriendo nuevas posibilidades tanto en ámbitos académicos como en aplicaciones del mundo real.

Además de mejorar la velocidad y la profundidad de las respuestas, estos modelos están diseñados para manejar preguntas multifacéticas y realizar varias acciones de manera simultánea, produciendo informes integrados y en profundidad. La disponibilidad de estos modelos en diferentes niveles de acceso busca democratizar la innovación, permitiendo a los usuarios experimentar y beneficiarse de su potencial de manera amplia y progresiva.