Los investigadores utilizaron un modelo de aprendizaje automático similar al que se encuentra detrás de otras herramientas como ChatGPT.
Muchas personas con problemas de audición están utilizando tecnologías de reconocimiento de voz para lograr una comunicación efectiva en el entorno digital.
Y ahora los investigadores han utilizado inteligencia artificial para desarrollar una herramienta que convierte el lenguaje de señas en texto.
En concreto, investigadores del Barcelona Supercomputing Center y de la Universidad Politécnica de Cataluña han utilizado inteligencia artificial crear una herramienta capaz de mejorar la traducción de la lengua de signos.
Gracias a ella, las personas sordas o con problemas de audición podrían interactuar con la tecnología, alcanzando una mayor cantidad de servicios digitales.
Básicamente, utilizaron un modelo de aprendizaje automático llamado transformadoresy lo bueno de este modelo es que es bueno para aprender a aplicar el contexto, y también permite un rendimiento mucho más rápido cuando se aprende de ejemplos de entrenamiento.
Luego, el conjunto de datos de entrenamiento provino de Cómo2Signun conjunto de datos a gran escala, de múltiples vistas y disponible públicamente que comprende 80 horas de videos instructivos del lenguaje de señas estadounidense.
“La nueva herramienta desarrollada es una extensión de una publicación anterior también del BSC y la UPC llamada How2Sign, donde se recogen los datos necesarios para entrenar a los modelos (más de 80 horas de vídeos donde intérpretes de lengua de signos americana traducen videotutoriales como recetas de cocina o bricolaje«, dicho Laia Tarrés, autor principal del estudio. “Con estos datos ya disponibles, el equipo ha desarrollado un nuevo software de código abierto capaz de aprender el mapeo entre video y texto.”.
Pero no lo tuvieron fácil, porque uno de los desafíos que enfrentaron fue la variabilidad y complejidad de los lenguajes de señas, algo que puede verse influenciado por cosas como los antecedentes y el contexto.
Para evitarlo, al tratar los datos que utilizan Redes 3D infladas (I3D), un método de extracción de video que aplica un filtro 3D, que permite tomar información espaciotemporal.
En términos generales, descubrieron que su modelo podría producir traducciones significativas; en todo caso, todavía lo están mejorando, pero muestran resultados prometedores.
Con información de Telam, Reuters y AP