Google presenta función de traducción en tiempo real que mantiene la voz original en Meet y Translate
Google presenta una innovadora función de traducción en tiempo real que mantiene la voz original, facilitando la comunicación multilingüe con inteligencia artificial.
Google ha anunciado la disponibilidad de una innovadora función de traducción en tiempo real que permite hablar en diferentes idiomas manteniendo la voz original. Esta tecnología, basada en inteligencia artificial, ya está disponible en Google Meet y en dispositivos Pixel. La función, presentada en el blog técnico de Google, utiliza modelos especializados de traducción y generación de voz, combinados con arquitecturas basadas en Transformer y procesamiento de flujo de audio, para ofrecer traducciones continuas sin perder la tonalidad del usuario.
El desarrollo de esta tecnología cuenta con un equipo global repartido entre Berlín, Estocolmo, Zúrich, Nueva York y Mountain View, demostrando una colaboración internacional en la creación de soluciones que facilitan la comunicación multilingüe. Actualmente, la función está disponible en Google Meet y Google Translate, con planes de expandirse a otros servicios, especialmente para facilitar la comunicación empresarial en mercados internacionales.
Uno de los principales desafíos en la implementación es equilibrar la calidad de la traducción, la baja latencia —que ahora alcanza los 2 segundos— y la fidelidad a la voz original. La prioridad es mejorar la precisión, reducir errores y perfeccionar el proceso en futuras versiones.
El sistema utiliza un modelo de traducción en tiempo real que emplea un codificador de flujo y un decodificador autorregresivo, ambos basados en bloques Transformer. Estos permiten que el modelo decida automáticamente cuándo emitir la traducción, procesando flujos de audio continuo y reconociendo expresiones, nombres propios y frases idiomáticas más allá de una simple traducción palabra por palabra.
En cuanto a la gestión de errores propios del habla oral, como las pausas o expresiones como «mm» y «uhh», el modelo ha sido entrenado para comprender el contexto y ofrecer traducciones coherentes, incluso cuando el habla no es perfecta. La tecnología también trabaja para mantener las características individuales de la voz, asegurando una experiencia natural y auténtica.
Por otro lado, la mayor dificultad radica en ofrecer el mejor equilibrio posible entre calidad, velocidad y fidelidad, sin sacrificar la inmediatez que requiere una conversación en tiempo real. Aunque la tecnología ha avanzado mucho en los últimos años, los esfuerzos continúan para perfeccionar la precisión y reducir la latencia, que actualmente es de aproximadamente 2 segundos.
Además, Google ha enfatizado que cumple con las regulaciones de privacidad y trabaja para evitar usos indebidos, como la suplantación de identidad o la creación de deepfakes. Se han establecido políticas estrictas para garantizar que la funcionalidad se utilice de forma ética y segura, además de colaborar con autoridades de privacidad en todo el mundo para mantener altos estándares de protección de datos.