Mirando hacia adelante: Los audiolibros han ganado popularidad en los últimos años debido a su accesibilidad, pero grabarlos puede resultar difícil y costoso. Los investigadores demostraron recientemente un método automatizado que utiliza texto a voz sintético que resuelve numerosos problemas que enfrenta la tecnología y podría permitir a los usuarios comunes generar audiolibros.
Los lectores ahora pueden escuchar miles de audiolibros de literatura clásica y otro material de dominio público gratuitos a través del Proyecto Gutenberg. Los investigadores de Microsoft y el MIT crearon la colección escaneando los libros con un software de conversión de texto a voz que suena natural y puede analizar adecuadamente el formato.
Los textos incluyen obras de Shakespeare, Agatha Christie, Jane Austen, Leonardo Da Vinci y muchos otros. Los usuarios pueden escucharlos en Internet Archive, Spotify, Apple Podcasts y Google Podcasts. El código utilizado para crear la colección está disponible en GitHub.
Apple comenzó a vender audiolibros en enero utilizando tecnología automatizada de conversión de texto a voz. Sin embargo, la empresa fue examinada minuciosamente por figuras literarias críticas con los objetivos comerciales de Apple y actores de doblaje cuyo trabajo entrenó a la IA de la empresa. El enfoque de Gutenberg podría provocar una reacción diferente debido a que es de código abierto sin ánimo de lucro.
El Proyecto Gutenberg ha pasado décadas reuniendo una biblioteca de literatura gratuita en formato de texto para que esté ampliamente disponible de forma gratuita, pero los audiolibros podrían hacer que el material sea aún más accesible. Son útiles para lectores que conducen, realizan múltiples tareas, tienen discapacidad visual, aprenden a leer o aprenden un nuevo idioma.
Crear un audiolibro utilizando métodos tradicionales requiere tiempo y dinero para pagarle a alguien para que lea un libro completo en voz alta. No vale la pena económicamente grabar manualmente una versión en audio de cada libro que vale la pena leer. La conversión de texto a voz es más adecuada para el Proyecto Guttenberg. Sin embargo, las herramientas de aprendizaje automático de los investigadores enfrentaron múltiples obstáculos.
La primera y más importante cuestión fue determinar qué libros digitales podía analizar el software. El Proyecto Gutenberg recopila sus materiales en múltiples formatos y muchos de sus archivos contienen errores o escaneos imperfectos. Entonces, los investigadores se centraron en libros almacenados como archivos HTML y crearon una herramienta (en la foto de arriba) para descubrir qué elementos mostraban un formato similar.
Otro problema que resolvieron los investigadores fue asegurarse de que el sistema supiera qué texto leer o ignorar. Abarcó componentes como índices, números de páginas, notas a pie de página, tablas y otro material superfluo.
Además, los resultados deben sonar lo suficientemente parecidos al habla humana natural. Los investigadores se centraron en una entrega vocal más adecuada para obras de no ficción y narración, pero los usuarios pueden modificar el software para intentar lecturas dramáticas.
Los investigadores planean realizar una demostración que permita a los usuarios generar un audiolibro con su voz. Después de grabar algunas líneas para entrenar el algoritmo, cada participante puede escuchar una muestra antes de permitir que el software lea un libro completo. También recibirán una copia del audiolibro por correo electrónico. Opcionalmente, los usuarios pueden seleccionar entre voces sintéticas para personalizar cada audiolibro.