Google trabaja en solucionar las problemas de subtítulos no deseados en Veo 3, pero persisten las dificultades técnicas

TecnologíaGoogle

Google trabaja en solucionar las problemas de subtítulos no deseados en Veo 3, pero persisten las dificultades técnicas

Google trabaja en mejorar Veo 3, aunque persisten desafíos técnicos en la eliminación de subtítulos no deseados, afectando su uso práctico.

Descripción

Tras la presentación del nuevo modelo de generación de vídeos de Google, llamado Veo 3, la comunidad creativa y cinematográfica se interesó rápidamente en experimentar con sus capacidades, que permiten crear clips de hasta 8 segundos con diálogos y sonidos. Esta herramienta ha sido utilizada por profesionales de renombre como el director nominado al Óscar Darren Aronofsky para producir contenidos que van desde avances de películas hasta vídeos de estilo ASMR y faux entrevistas callejeras. Sin embargo, a pocos meses de su lanzamiento, se han evidenciado varias limitaciones que afectan su uso práctico.

Uno de los problemas principales reportados por los usuarios es la generación frecuente de subtítulos sin sentido en los clips con diálogos, incluso cuando se solicita explícitamente que no se incluyan. Estos subtítulos no solo son incoherentes, sino que dificultan la edición y obligan a recurrir a métodos externos o a volver a generar el vídeo, lo que incrementa los costes y la complejidad del proceso. Para crear un solo clip se necesitan al menos 20 créditos KI, cuyo coste aproximado es de 25 $ por 2.500 créditos, sumando gastos considerables ante la necesidad de múltiples revisiones.

Desde Google, representantes como Josh Woodward han reconocido la existencia del problema y han anunciado que se están implementando medidas para reducir la aparición de estos subtítulos no deseados. Sin embargo, los usuarios continúan reportando fallos, incluso semanas después, en foros oficiales y canales de soporte, lo que evidencia la dificultad técnica de corregir errores tan arraigados en modelos de inteligencia artificial de gran escala. La raíz del problema radica en el proceso de entrenamiento del modelo, que utiliza vídeos con subtítulos incrustados — muchas veces provenientes de plataformas como YouTube, TikTok, vlogs o clips gaming — los cuales están embebidos en las imágenes y no son fácilmente eliminables.

El entrenamiento del modelo se basa en el aprendizaje por refuerzo para imitar contenidos creados por humanos, lo que hace que los subtítulos integrados en los vídeos de entrenamiento se conviertan en parte del comportamiento esperado del sistema. Como consecuencia, el modelo tiende a incluir subtítulos incluso cuando se indican instrucciones contrarias en el prompt, debido a que las reglas para que ignore dichas instrucciones son menos efectivas. Expertos como Tuhin Chakrabarty y Shuo Niu señalan que corregir este error implicaría revisar, frame a frame, cada vídeo con el fin de identificar y eliminar los subtítulos incrustados — una tarea que tomaría semanas y representa una inversión significativa de recursos.

La compañía ha destacado que continúa trabajando en mejorar la tecnología, pero la realidad es que el proceso para solucionar este problema sería complejo y costoso. Además, algunos usuarios consideran que Google priorizó el lanzamiento del producto con avances tecnológicos como la lip-sync sincronización por encima de resolver defectos fundamentales. La situación refleja un patrón en el desarrollo de productos de inteligencia artificial: la prisa por comercializar y obtener éxito puede dejar de lado la perfección técnica y la madurez completa del producto, generando inconvenientes para los usuarios que requieren mayor precisión y control en sus creaciones.