Google actualiza Gemini 2.5 con función conversacional de segmentación de imágenes y resultados en formato JSON

TecnologíaGoogle

Google actualiza Gemini 2.5 con función conversacional de segmentación de imágenes y resultados en formato JSON

Google mejora su modelo de IA Gemini 2.5 con una innovadora función de segmentación de imágenes conversacional y resultados en formato JSON.

Descripción

Google ha actualizado su modelo de inteligencia artificial Gemini 2.5, incorporando una innovadora función de segmentación de imágenes conversacional que revoluciona la forma en que los usuarios pueden analizar y marcar contenidos visuales usando lenguaje natural. Esta tecnología avanzada permite comprender descripciones complejas, como «la persona con el paraguas», o consultas condicionales como «todas las personas que no están sentadas», además de conceptos abstractos como «desorden». La aplicación, accesible a través de la API de Gemini, entrega resultados en formato JSON con coordenadas, máscaras de píxeles y etiquetas, facilitando tareas para diseñadores, aseguradoras y desarrolladores.

Paralelamente, Oracle y OpenAI están construyendo en Texas un vasto centro de datos con el objetivo de entrenar algoritmos de inteligencia artificial, empezando con una primera fase que ya opera con dos grandes edificios y un consumo energético de 200 megavatios. Se proyecta que para 2026 se sumen seis nuevos complejos que albergarán 800.000 aceleradores Blackwell, elevando el consumo energético total a 1.200 megavatios, una cifra que supera ampliamente los 30 megavatios habituales en grandes centros de datos. Estas instalaciones trabajarán en colaboración con empresas especializadas en minería de criptomonedas, aunque algunos reportes indican que estas plantillas podrían estar fuera del proyecto de inversión conjunta de 500.000 millones de dólares anunciado por la administración de Trump.

Por otro lado, Reino Unido ha anunciado una alianza estratégica con OpenAI para posicionarse como líder en innovación en inteligencia artificial. El Gobierno británico planea invertir alrededor de 1.000 millones de libras en infraestructura de IA y centros de datos, con la esperanza de potenciar un crecimiento anual del 1,5% en productividad industrial y generar beneficios económicos privilegiados en salud, educación y economía en la próxima década, estimados en unos 47.000 millones de libras.

En el marco de estos avances, las instituciones de la Unión Europea enfrentan el desafío de cubrir una alarmante escasez de personal en áreas críticas como TI, ciberseguridad y comprensión de IA. En un nuevo presupuesto para 2028–2034, la Comisión Europea propone agregar 2.500 puestos especializados en los primeros tres años, con un presupuesto cercano a 2 billones de €, en un esfuerzo por consolidar la inversión en tecnología y reducir costes futuros vinculados a la digitalización.

Sobre los avances en creación de contenido, Google también ha lanzado VEO 3, su modelo de generación de vídeos que produce clips cortos de alta calidad aunque con frecuencia genera subtítulos sin sentido o incorrectos, incluso cuando los usuarios solicitan eliminarlos. La principal causa parece ser la dificultad para quitar estos subtítulos, ya que están integrados en los cuadros de vídeo en lugar de ser pistas de texto separadas, lo que requiere revisar cada cuadro del vídeo durante el entrenamiento, un proceso que puede tardar semanas.

Por último, en el ámbito de la ética y financiación en IA, Dario Amodei, CEO de Anthropic, admitió en una comunicación interna que su empresa, en plena competencia global por recursos, podría estar aceptando inversiones de países del Golfo que, según sus principios previos, beneficiarían a dictadores y pondrían en entredicho sus compromisos éticos. Estas decisiones reflejan los desafíos del sector para equilibrar la necesidad de recursos con la responsabilidad social y ética que conlleva el desarrollo de tecnologías de inteligencia artificial.