Todos podrán clonar su voz en el futuro.

Clonar su voz usando inteligencia artificial es a la vez tedioso y simple: características de una tecnología que está casi madura y lista para salir a bolsa.

Todo lo que necesitas hacer es hablar por un micrófono durante 30 minutos más o menos, leer un guión con el mayor cuidado posible (en mi caso: la voz en off de un documental de David Attenborough). Después de comenzar y detenerse docenas de veces para volver a grabar sus errores y murmullos, enviará los archivos de audio resultantes para que se procesen y, en unas pocas horas, se le informará que una copia de su voz está lista y esperando. Luego, puede escribir lo que quiera en un chatbox, y su clon de IA se lo dirá, con el audio resultante realista para engañar incluso a amigos y familiares, al menos por unos momentos. El hecho de que tal servicio exista puede ser una novedad para muchos, y no creo que hayamos comenzado a considerar completamente el impacto que tendrá el fácil acceso a esta tecnología.

El trabajo de síntesis de voz ha mejorado enormemente en los últimos años, gracias a los avances en el aprendizaje automático. Anteriormente, las voces sintéticas más realistas se creaban grabando el audio de un actor de voz humano, cortando su discurso en sonidos componentes y volviendo a unirlos como letras en una nota de rescate para formar nuevas palabras. Ahora, las redes neuronales se pueden entrenar con datos sin clasificar de su voz objetivo para generar audio sin procesar de alguien hablando desde cero. Los resultados finales son más rápidos, más fáciles y más realistas de arrancar. La calidad definitivamente no es perfecta cuando se usa la máquina directamente (aunque los ajustes manuales pueden mejorar esto), pero solo mejorarán en un futuro cercano.

Deberías leer:   Xiaomi muestra el concepto de gafas inteligentes con pantalla MicroLED

No hay salsa especial para hacer estos clones, lo que significa que docenas de nuevas empresas ya ofrecen servicios similares. Solo busque en Google “síntesis de voz de IA” o “deepfakes de voz de IA”, y verá cuán común es la tecnología, disponible en tiendas especializadas que solo se enfocan en síntesis de voz, como Resemble.AI y Respeecher, y también integrada en empresas con mayor plataformas, como Veritone (donde la tecnología es parte de su repertorio publicitario) y Descript (que la usa en el software que hace para editar podcasts).

Estos clones de voz simplemente han sido una novedad en el pasado, apareciendo como falsificaciones únicas como esta falsificación de Joe Rogan, pero están comenzando a usarse en proyectos serios. En julio, un documental sobre el chef Anthony Bourdain generó controversia cuando los creadores revelaron que habían usado inteligencia artificial para crear audio de las líneas “hablando” de Bourdain que había escrito en una carta. (En particular, pocas personas notaron el deepfake hasta que los creadores revelaron su existencia). Y en agosto, la startup Sonantic anunció que había creado un clon de voz de IA del actor Val Kilmer, cuya propia voz se dañó en 2014 después de que se sometiera a una traqueotomía como parte de su tratamiento para el cáncer de garganta. Estos ejemplos también enmarcan algunas de las dimensiones sociales y éticas de esta tecnología. El caso de uso de Bourdain fue criticado como explotador por muchos (particularmente porque su uso no fue revelado en la película), mientras que el trabajo de Kilmer ha sido elogiado en general, y la tecnología fue elogiada por ofrecer lo que otras soluciones no pudieron.

Deberías leer:   Revisión de la misa de medianoche: más horror de combustión lenta del creador de Hill House

Es probable que las aplicaciones de celebridades de clones de voz sean las más destacadas en los próximos años, y las empresas esperan que los famosos quieran aumentar sus ingresos con un esfuerzo mínimo mediante la clonación y el alquiler de sus voces. Una compañía, Veritone, lanzó un servicio de este tipo a principios de este año, diciendo que permitiría a personas influyentes, atletas y actores licenciar su voz de IA para cosas como respaldos e identificaciones de radio, sin tener que ir a un estudio. “Estamos realmente entusiasmados con lo que eso significa para una gran cantidad de industrias diferentes porque la parte más difícil de la voz de alguien y poder usarla y poder expandir eso es el tiempo del individuo”, Sean King, vicepresidente ejecutivo de Veritone Uno, dicho los Vergecast. “Una persona se convierte en el factor limitante de lo que estamos haciendo”.

Estas aplicaciones aún no están muy extendidas (o si lo están, no se habla mucho de ellas), pero parece una forma obvia para que las celebridades ganen dinero. Bruce Willis, por ejemplo, ya ha obtenido la licencia de su imagen para que se utilice como un deepfake visual en anuncios de teléfonos móviles en Rusia. El trato le permite ganar dinero sin tener que salir de casa, mientras que la empresa de publicidad consigue un actor infinitamente maleable (y, en particular, un mas joven versión de Willis, directamente de su Morir duro dias). Este tipo de clones visuales y de audio podrían acelerar las escalas de la economía para el trabajo de las celebridades, permitiéndoles capitalizar su fama, siempre y cuando estén felices alquilando un simulacro de ellos mismos.

Deberías leer:   Evento Microsoft Surface 2021: rumores, noticias y anuncios

Aquí y ahora, la tecnología de síntesis de voz ya se está incorporando a herramientas como el software de edición de podcasts del mismo nombre creado por la firma estadounidense Descript. La función “Overdub” de la compañía permite a un podcaster crear un clon de IA de su voz para que los productores puedan realizar cambios rápidos en su audio, complementando la edición basada en transcripción del programa. Como dijo el CEO de Descript, Andrew Mason El Vergecast: “No solo puede eliminar palabras en Descript y hacer que elimine el audio, puede escribir palabras y generará audio en su voz”.

El software de edición de podcasts Descript utiliza clones de voz de IA para editar el discurso como una transcripción.
Imagen: Descripcion

Cuando probé la función Overdub de Descript, ciertamente fue bastante fácil de usar, aunque, como se mencionó anteriormente, registrar los datos de entrenamiento fue un poco complicado. (Fue mucho más fácil para mi colega y habitual Borde Ashley Carman, presentadora de podcasts, que tenía una gran cantidad de audio pregrabado listo para enviar la IA.) Los clones de voz hechos por Overdub no son perfectos, ciertamente. Tienen un trino extraño en su tono y carecen de la capacidad de cargar realmente las líneas con emoción y énfasis, pero también son inconfundibles. usted. La primera vez que usé mi clon de voz fue un momento realmente extraño. No tenía idea de que esta cosa profundamente personal, mi voz, podría ser copiada por la tecnología tan rápida y fácilmente. Se sentía como un encuentro con el futuro, pero también resultaba extrañamente familiar. Después de todo, la vida ya está llena de espejos digitales, de avatares y feeds de redes sociales que se supone que representan a “usted” en varias formas, así que ¿por qué no agregar un autómata parlante a la mezcla?

Sin embargo, el impacto inicial de escuchar una voz clonada de ti mismo no significa que las voces humanas sean redundantes. Lejos de ahi. Ciertamente, puede mejorar la calidad de los deepfakes de voz con un poco de edición manual, pero en su forma automatizada, aún no pueden ofrecer el rango de inflexión y entonación que obtiene de los profesionales. Como dijo la locutora y narradora Andia Winslow El Vergecast, mientras que las voces de IA pueden ser útiles para el trabajo de voz de memoria (para sistemas de mensajería interna, anuncios públicos automatizados y similares), no pueden competir con los humanos en muchos casos de uso. “Para cosas grandes, cosas que necesitan aliento y vida, no va a ser así porque, en parte, a estas marcas les gusta trabajar con las celebridades que contratan, por ejemplo”, dijo Winslow.

Pero, ¿qué significa esta tecnología para el público en general? ¿Para aquellos de nosotros que no somos lo suficientemente famosos como para beneficiarnos de la tecnología y no estamos profesionalmente amenazados por su desarrollo? Bueno, las aplicaciones potenciales son variadas. No es difícil imaginar un videojuego donde la pantalla de creación de personajes incluye una opción para crear un clon de voz, por lo que parece que el jugador está hablando todo el diálogo del juego. O podría haber una aplicación para padres que les permita copiar su voz para que puedan leer cuentos a sus hijos antes de dormir incluso cuando no están cerca. Tales aplicaciones podrían realizarse con la tecnología actual, aunque la calidad media de los clones rápidos haría que fueran difíciles de vender.

También existen peligros potenciales. Los estafadores ya han utilizado clones de voz para engañar a las empresas para que transfieran dinero a sus cuentas, y ciertamente hay otros usos maliciosos que acechan más allá del horizonte. Imagínese, por ejemplo, un estudiante de secundaria grabando subrepticiamente a un compañero de clase para crear un clon de voz de él, y luego falsificando el audio de esa persona hablando mal de un maestro para meterlo en problemas. Si los usos de deepfakes visuales son algo que se puede seguir, donde las preocupaciones sobre la desinformación política han demostrado estar en gran parte fuera de lugar, pero la tecnología ha hecho un gran daño al crear pornografía no consensual, son este tipo de incidentes los que representan las mayores amenazas.

Sin embargo, una cosa es segura: en el futuro, cualquiera podrá crear un clon de voz de IA de sí mismo si lo desea. Pero el guión que seguirá este coro de voces digitales aún no se ha escrito.

Las ultimas noticias de California, editadas por los corresponsales en California. Si quieres sumarte no dudes en contactarnos.