Dos estudiantes de pregrado construyeron un modelo de discurso de IA para rivalizar en cuaderno

Un par de estudiantes de pregrado, ni con una amplia experiencia en IA, dicen que han creado un modelo de IA abiertamente disponible que puede generar clips de estilo podcast similar al cuaderno de Google.

El mercado de herramientas de habla sintética es vasto y creciente. ElevenLabs es uno de los jugadores más grandes, pero no hay escasez de retadores (ver playai, sésamo, etc.). Los inversores creen que estas herramientas tienen un potencial inmenso. Según Pitchbook, las nuevas empresas que desarrollan Voice Ai Tech recaudaron más de $ 398 millones en fondos de VC el año pasado.

Toby Kim, uno de los cofundadores de Nari Labs, con sede en Corea, el grupo detrás del modelo recién publicado, dijo que él y su compañero cofundador comenzaron a aprender sobre el discurso IA hace tres meses. Inspirados en Notebooklm, querían crear un modelo que ofreciera más control sobre las voces generadas y la «libertad en el guión».

Kim dice que utilizaron el programa TPU Research Cloud de Google, que proporciona a los investigadores acceso gratuito a los chips de IA TPU de la compañía, para capacitar al modelo de Nari, DIA. Con un peso de 1.6 mil millones de parámetros, DIA puede generar diálogo a partir de un script, permitiendo a los usuarios personalizar los tonos de los altavoces e insertar disfluencias, tos, risas y otras señales no verbales.

Los parámetros son los modelos de variables internas que se utilizan para hacer predicciones. En general, los modelos con más parámetros funcionan mejor.

Disponible en la plataforma AI Dev Hugging Face y GitHub, DIA puede ejecutarse en la mayoría de las PC modernas con al menos 10 GB de VRAM. Genera una voz aleatoria a menos que se solicite una descripción de un estilo previsto, pero también puede clonar la voz de una persona.

En las breves pruebas de Tecno de DIA a través de la demostración web de Nari, DIA funcionó bastante bien, generando chats bidireccionales sobre cualquier tema. La calidad de las voces parece competitiva con otras herramientas, y la función de clonación de voz se encuentra entre las más fáciles que este reportero ha intentado.

Aquí hay una muestra:

Sin embargo, al igual que muchos generadores de voz, DIA ofrece poco en cuanto a salvaguardas. Sería trivialmente fácil crear desinformación o una grabación de estafa. En las páginas del proyecto de DIA, Nari desalienta el abuso del modelo a hacerse pasar, engañar o participar en campañas ilícitas, pero el grupo dice que «no es responsable» por el mal uso.

Nari tampoco ha revelado qué datos raspó para entrenar a Dia. Es posible que se desarrolle DIA utilizando contenido con derechos de autor: un comentarista en Hacker News señala que una muestra suena como los anfitriones del podcast «Planet Money» de NPR. Los modelos de entrenamiento sobre contenido con derechos de autor es una práctica generalizada pero legalmente dudosa. Algunas compañías de IA afirman que el uso justo los protege de la responsabilidad, mientras que los titulares de derechos afirman que el uso justo no se aplica a la capacitación.

En cualquier caso, Kim dice que el plan de Nari es crear una plataforma de voz sintética con un «aspecto social» además del DIA y los modelos futuros más grandes. Nari también tiene la intención de publicar un informe técnico para DIA y expandir el apoyo del modelo a idiomas más allá del inglés.

Continuar leyendo: Dos estudiantes de pregrado construyeron un modelo de discurso de IA para rivalizar en cuaderno