Google presenta Gemini 3, su IA multimodal avanzada con capacidades en textos, imágenes y audio
Google lanza Gemini 3, su innovadora IA multimodal que combina procesamiento avanzado en textos, imágenes y audio, abriendo nuevas posibilidades tecnológicas.
Google ha lanzado la versión Gemini 3, su último modelo de inteligencia artificial nativa multimodal, que promete avances significativos en el procesamiento de textos, imágenes, vídeos y audios. Disponible en Gemini.google.com tras un proceso de registro con la cuenta de Google, este sistema ofrece diferentes opciones de suscripción que varían en coste y capacidades, incluyendo planes Pro, Plus y Ultra, además de un uso gratuito limitado a cinco preguntas y dos generadores de imágenes diarios en su versión básica.
Este nuevo sistema destaca por su capacidad para analizar y generar contenidos con alta calidad, desde imágenes, vídeos y audios, hasta análisis complejos como perfiles psicológicos regionales. Un ejemplo destacado es su habilidad para analizar música y reconocer distintos estilos, incluso interpretando letras con buena precisión, aunque puede cometer errores, especialmente en detalles geográficos o datos específicos. Además, Gemini permite la creación de sitios web personalizados, la identificación de objetos en fotos, perfiles psicológicos a partir de podcasts, investigaciones sobre animales y la generación de arte tipográfico de alta calidad.
Uno de los aspectos más sorprendentes de Gemini 3 es su procesamiento nativo multimodal, que le permite manejar diferentes tipos de datos simultáneamente, como se evidenció al analizar una canción con una letra distorsionada. La plataforma también ofrece herramientas para la edición de imágenes y la generación de arte tipográfico, logrando resultados que en ocasiones superan las capacidades de otros generadores, con una precisión notable en la producción tipográfica y composiciones visuales. Además, incluye aplicaciones como Antigravity, un IDE integrado que permite editar vídeos y aplicar filtros en tiempo real, y VO3, para la generación automática de vídeos musicales.
El sistema también destaca en el análisis de audio, pudiendo interpretar podcasts o canciones, y en tareas de análisis psicológico y perfilamiento, aunque con ciertas advertencias sobre la fiabilidad y los riesgos de estereotipos o interpretaciones erróneas. En pruebas realizadas, Gemini ha conseguido detectar características regionales con bastante precisión, así como estimar niveles de inteligencia o rasgos de personalidad, lo que genera tanto admiración como preocupación respecto a los riesgos y las implicaciones éticas del uso de estas herramientas.
No obstante, el sistema sigue enfrentando limitaciones, como errores en el reconocimiento de ubicaciones o datos, y la tendencia a «hallucinar» información, lo que genera dudas sobre su precisión en algunos contextos. A pesar de ello, su rendimiento ha provocado un cambio en el panorama de la inteligencia artificial, posicionándose como uno de los sistemas más avanzados del mercado. Google afirma haber utilizado hardware propio, las TPU, para entrenar y soportar Gemini 3, lo que también se refleja en un alza en el valor de sus acciones tras su lanzamiento.
Este avance refuerza la tendencia de que los modelos de lenguaje seguirán evolucionando y desafiando las ideas preconcebidas sobre los límites actuales de la inteligencia artificial. Sin embargo, expertos advierten sobre los riesgos y la necesidad de un uso responsable, especialmente en tareas de perfilamiento psicológico o análisis de habilidades, donde la confianza y la precisión siguen siendo cuestiones a revisar. Con Gemini 3, Google demuestra que está de regreso en la carrera de la IA, con un sistema que combina capacidades multimodales, rapidez y un nivel de inteligencia que, aunque aún imperfecto, apunta a un futuro prometedor.