Investigadores de Hong Kong desarrollan método de detección de gestos en realidad virtual sin cámaras ni sensores especializados

TecnologíaInteligencia artificial

Investigadores de Hong Kong desarrollan método de detección de gestos en realidad virtual sin cámaras ni sensores especializados

Un nuevo método innovador usa señales acústicas y modelos de lenguaje para detectar gestos en realidad virtual, eliminando la necesidad de hardware costoso.

Descripción

Un equipo de investigación de la Universidad Baptista de Hong Kong ha desarrollado un método novedoso para detectar gestos en entornos de realidad virtual que no requiere cámaras de seguimiento, sensores especializados ni grandes volúmenes de datos de entrenamiento. En lugar de ello, el sistema utiliza señales acústicas y modelos de lenguaje avanzados para interpretar los movimientos, ofreciendo una alternativa más económica y eficiente a las tecnologías tradicionales.

Actualmente, las gafas de realidad virtual de gama alta, como Meta Quest 3 o Apple Vision Pro, capturan los movimientos de las manos o controladores mediante cámaras integradas, analizando en tiempo real y con poca latencia. Sin embargo, estos dispositivos usan hardware costoso, requieren conocimientos técnicos especializados y necesitan grandes cantidades de datos para entrenar los sistemas de seguimiento, además de presentar imprecisiones, especialmente en condiciones de poca luz o con gestos complejos.

El nuevo método propuesto por los investigadores se basa en medir ondas ultrasónicas reflejadas por los movimientos mediante un smartphone que envía y recibe señales de alta frecuencia. Estas señales reflejadas se transforman en imágenes llamadas dCIR, que representan cambios en el patrón de ondas en el tiempo. Para interpretar estas imágenes, el sistema emplea modelos multimodales que combinan visión y lenguaje, como GPT-5 y Claude 4, los cuales comparan las imágenes con ejemplos en una base de datos para identificar los gestos realizados.

En los experimentos iniciales, el sistema logró reconocer con altas tasas de acierto (más del 90%) gestos simples, como números y formas geométricas, siendo más preciso con estos que con gestos más complejos, como letras con múltiples curvas. Los modelos específicos demostraron ser fiables, destacándose GPT-5 en la detección de números y Claude 4 en la clasificación de letras y formas. Además, estos modelos no solo identifican los gestos, sino que también proporcionan explicaciones sobre sus decisiones, lo que aumenta la transparencia y el valor de la tecnología.

Este avance representa una solución accesible y adaptable para la interacción en entornos virtuales, ya que reduce la dependencia de hardware costoso y técnicas de entrenamiento exhaustivas. Sin embargo, los investigadores señalan que, en la práctica, la implementación en productos comerciales requiere que el sistema funcione con casi cero latencia y en condiciones variables, aspecto aún por perfeccionar. Aunque Google intentó desarrollar gestos controlados por ondas electromagnéticas con su proyecto Soli en 2015, la tecnología no logró fiabilidad suficiente para aplicaciones diarias, siendo posteriormente utilizada en dispositivos como Google Pixel 4 para otras funciones de detección de movimiento.