La calidad de las voces generadas por la IA es lo suficientemente buena para crear audiolibros y podcasts, tener artículos leídos en voz alta y atención al cliente básico. Pero muchas empresas no creen que la tecnología de voz de IA sea lo suficientemente confiable como para implementar.
Es por eso que dos graduados del MIT, Moin Nadeem y Nikhil Murthy (en la foto de arriba), fundaron Phonic, una compañía que ofrece una pila de voz de extremo a extremo para aumentar la confiabilidad de la voz sintética al tiempo que disminuye la latencia.
Nadeem y Murthy se conocieron en el MIT, y se conocen durante más de siete años. Cuando el dúo comenzó a construir Phonic el año pasado, sintieron que no había muchas compañías que creaban soluciones completas de tecnología de voz.
“Voice Ai está en un lugar donde ates diferentes partes, como el reconocimiento de voz automático [and] texto a voz y [then integrate] inteligencia «, dijo Murthy a Tecno.» Sin embargo, cuando hablamos con clientes reales, descubrimos que faltan [solutions] eso [are] confiable a escala «.
Nadeem, quien anteriormente trabajó en MosaicML, una compañía de Databricks adquirida por $ 1.3 mil millones en 2023, dijo que muchas compañías que están construyendo en el espacio de IA de voz (por ejemplo, VAPI, redondeado) están creando flujos de trabajo para reunir modelos de IA separados.
Phonic adopta un enfoque diferente: entrena sus modelos internos de extremo a extremo. Murthy dijo que hay algunas ventajas en esto.
“Poseer los modelos nos permite integrar profundamente algunos […] piezas de fiabilidad en el [models themselves]», Dijo.» Si no tienes esa capa […] Solo estás atando piezas dispares que realmente no encajan sin problemas «.
Murthy agregó que el método de Phonic también permite a la compañía alojar y ejecutar modelos de manera rentable. Afirma que Phonic entrena sus modelos en una variedad de grabaciones, incluidas grabaciones de discurso acentuado y amortiguado, para que los modelos sean muy robustos.
Phonic actualmente está trabajando con un conjunto limitado de socios, incluidas empresas en los espacios de seguros y atención médica, pero planea lanzar su producto ampliamente en unos pocos meses. Pronto, los posibles clientes podrán probar la tecnología de Phonic desde su sitio web, dijo Nadeem.
Phonic ha recaudado $ 4 millones en una ronda de semillas dirigida por Lux con la participación del cofundador de la lista Amjad Masad, el cofundador de Hugging Face, Clem Delangue, el cofundador de intuición aplicado Qasar Younis y el fundador de Modal Labs Erik Bernhardsson.
Grace Isford, socia de Lux Capital, dijo que la forma interna de capacitación de la compañía era atractiva para la firma de inversión.
«Creemos que tanto Moin como Nikhil son tecnólogos increíbles», dijo. «Fundaron [a] Club de aprendizaje automático en el MIT. Y han trabajado en modelos de capacitación por un tiempo. Además, su enfoque de combinar difusión y modelos patentados en el sector de IA de voz es novedoso ”.
Continuar leyendo: La plataforma AI de voz Phonic retrocede de Lux








