Google mejora su tecnología Gemini en generación de imágenes con versión 4, ofreciendo mayor calidad y variedad de formatos

Google presenta Gemini 4, una poderosa actualización que eleva la calidad, velocidad y versatilidad en la generación de imágenes con inteligencia artificial.

Publicado: 21-05-2025 18:04

Google ha anunciado una importante actualización en su tecnología de generación de imágenes con Gemini en la conferencia Google I/O, logrando una mejora significativa en la calidad visual gracias a la incorporación de Imagen 4. Esta nueva versión ofrece una calidad superior, mejor tipografía, resolución hasta 2K y la capacidad de crear imágenes con proporciones distintas a la clásica relación 1:1, permitiendo mayor variedad en los formatos utilizados.

Los usuarios que acceden de forma gratuita a Gemini pueden generar entre 10 y 20 imágenes diarias, mientras que los suscriptores avanzados tienen un límite que oscila entre 100 y 150 imágenes por día, según la demanda del servidor. En comparación, las bases de uso de ChatGPT son menos claras y varían mucho según el usuario, con algunos reportando la creación de 3 a 4 imágenes en la versión gratuita y varias más en ChatGPT Plus.

En cuanto a la calidad, Gemini demuestra una notable capacidad para producir imágenes más realistas y con mayor nivel de detalle, especialmente al utilizar prompts específicos. En una prueba comparativa que solicitaba una escena cinematográfica, Gemini entregó un resultado mucho más cercano a lo solicitado, resaltando su avance en fidelidad visual. Sin embargo, aún presenta dificultades en la representación correcta de textos, con errores como «LS» en lugar de «LBS» o «2,27» en lugar de «2,27». Aunque ChatGPT también muestra errores en esta área, son en menor medida.

La eficiencia en la generación es otro aspecto destacado: Gemini logra producir imágenes en segundos, mientras que ChatGPT requiere varios minutos, lo que lo convierte en una opción más rápida para creaciones instantáneas. A pesar de ello, la capacidad de ChatGPT para manejar textos en las imágenes sigue siendo superior, especialmente en aspectos como la precisión en la incorporación de palabras y detalles específicos.

Por ejemplo, en un test para crear una escena con múltiples señales viales humorísticas, ChatGPT logró representar mejor los textos legibles en las señales, aunque con algunos errores menores y sin la misma velocidad de Gemini. Respecto a la calidad tipográfica, Gemini ha avanzado mucho, presentando imágenes con textos claros y legibles, aunque en algunos casos con pequeñas imprecisiones en la interpretación de las leyendas.

Un aspecto donde Gemini aún muestra limitaciones es en la transformación de imágenes existentes, como al intentar convertir una fotografía personal en estilo Ghibli, donde la IA de Gemini fracasó rotundamente, generando resultados alejados de la referencia original. En contraste, ChatGPT ha demostrado ser capaz de realizar este tipo de transformaciones sin mayores problemas, consolidándose como la opción preferida para tareas que implican editar o estilizar imágenes previamente subidas.

En definitiva, Gemini con Imagen 4 supone un avance significativo en la generación de imágenes por parte de Google, ofreciendo resultados rápidos, detallados y de alta calidad, ideales para creaciones originales. Sin embargo, el uso de ChatGPT sigue siendo preferible en tareas que requieran mayor precisión en textos y transformaciones, consolidándose como una herramienta complementaria en el panorama actual de inteligencia artificial para imágenes.