El procesamiento del lenguaje natural (PNL), aunque no es una disciplina nueva, se ha catapultado a la conciencia pública en los últimos meses gracias en gran parte al tren publicitario generativo de IA que es ChatGPT. Junto con otros modelos de NLP como Hugging Face’s Transformers y LaMDA de Google, que está configurado para impulsar a su rival de ChatGPT, Bard, existe una sensación palpable de que la llegada de AI a la corriente principal ya casi está aquí.
Pero para aquellos que ingresan algunas palabras clave en ChatGPT para crear letras al estilo de Nick Cave, es fácil pasar por alto todo el trabajo que implica desarrollar los modelos de IA subyacentes, llevándolos al punto en que están listos para el mercado masivo. consumo.
Para crear modelos de NLP, los desarrolladores necesitan no solo algoritmos, sino montones de datos de entrenamiento de calidad que estén «etiquetados» con precisión, una técnica que categoriza los datos sin procesar para permitir que las máquinas los entiendan y aprendan de ellos. Numerosas empresas existen sustancialmente para impulsar este proceso de etiquetado, una de las cuales es la startup alemana Kern AI, que ha creado una plataforma para desarrolladores de NLP y científicos de datos no solo para controlar el proceso de etiquetado, sino también para automatizar y orquestar tareas tangenciales y permitirles abordar bajo -datos de calidad que se les presenten.
PNL ‘centrada en datos’
Con la PNL como una de las tendencias de IA más candentes del momento, Kern AI anunció hoy que ha recaudado 2,7 millones de euros (2,9 millones de dólares) en fondos iniciales para duplicar el crecimiento reciente que ha visto la adopción de clientes comerciales, incluidas las compañías de seguros Barmenia y VHV Versicherungen, empresas de logística como la subsidiaria de Metro Supply Chain Group, Evolution Time Critical, y nuevas empresas respaldadas por empresas como Crowd.dev. La compañía también dice que su encarnación básica de código abierto ha sido utilizada por científicos de datos en compañías como Samsung y DocuSign.
Fundada en Bonn en 2020, el cofundador y director ejecutivo Johannes Hötter dijo que comenzó la empresa «con la creencia de que NLP se convertirá en una tecnología de digitalización central», reconociendo que los desarrolladores necesitan más control y flexibilidad sobre el proceso de desarrollo de NLP.
El producto estrella de la empresa es Refinery de código abierto, que permite a los desarrolladores adoptar un enfoque centrado en los datos para crear modelos NLP mediante la semiautomatización de su etiquetado, identificar conjuntos de datos de baja calidad en sus datos de entrenamiento y monitorear todos sus datos en una sola interfaz. .
En otros lugares, Bricks, también de código abierto, es una colección de «fragmentos de código» modulares y estandarizados que los desarrolladores pueden integrar en Refinery: es la «lógica de la aplicación que impulsa sus automatizaciones de NLP», según la compañía.
Hötter dijo que un caso de uso típico del mundo real para la plataforma Kern AI involucra herramientas internas de las empresas. Por ejemplo, una empresa de logística podría necesitar responder a una solicitud de un cliente como «envíe 20 paletas a nuestra planta en Gotemburgo mañana a las 4:00 p. m.”: estas solicitudes sensibles al tiempo deben responderse rápidamente. La empresa de logística podría usar Kern AI para sincronizar las solicitudes entrantes con su sistema de gestión de transporte (TMS), para detectar automáticamente la intención y los requisitos de la solicitud.
“Esto se hace sincronizando la bandeja de entrada del servicio con nuestro flujo de trabajo de productos comerciales, que luego envía los datos a Refinery”, explicó Hötter a Tecno. “Aquí, los desarrolladores pueden usar técnicas de NLP para analizar la solicitud y luego enviar la información extraída estructurada directamente a su TMS”.
Entonces, de alguna manera esto funciona de manera similar a algo como Zapier, pero en lugar de seguir un enfoque basado en reglas, está diseñado para una comprensión más compleja del lenguaje natural.
el estado de juego
En verdad, ya existen innumerables plataformas similares, que abarcan todo el panorama propietario y de código abierto. Estos incluyen Argilla, que recientemente recaudó una ronda inicial de financiación de 1,6 millones de dólares, y Heartex, que cerró un tramo de financiación más elevado de 25 millones de dólares el año pasado para Labelstudio. Y luego está Snorkel AI, una oferta patentada que ha asegurado unos 135 millones de dólares en financiación a lo largo de su historia.
Entonces, ¿qué es exactamente lo que está haciendo Kern AI que es diferente? Hötter dice que es la única “pila completa modular y de núcleo abierto” actualmente en el mercado. Con eso quiere decir que su plataforma se puede usar como un complemento centrado en el desarrollador conectado a las plataformas de etiquetado existentes, como Labelstudio, o se puede usar para crear aplicaciones NLP centradas en datos en su totalidad.
“Esto significa que puede usar Refinery como la aplicación para simplemente administrar y crear sus datos de capacitación, por ejemplo, si es una empresa nueva que desea crear un producto NLP sofisticado y ahora necesita una gran solución para crear los datos”, dijo Hötter. . “Alternativamente, también puede usar los algoritmos de Refinery para implementar una API en tiempo real y organizar flujos de trabajo completos, lo que cubriría toda la cadena de valor. Nuestro objetivo es llevar los avances de la PNL moderna a los equipos de datos, independientemente de su pila tecnológica actual y, por lo tanto, nuestra plataforma es modular”.
Kern AI cuenta actualmente con unos nueve empleados, que trabajan de forma remota en su mayor parte, pero que mantienen una oficina física en su Bonn natal.
Antes de ahora, Kern AI había recaudado una pequeña ronda de financiación previa a la semilla de 550 000 € (587 000 USD), y con 2,9 millones de dólares nuevos en el banco, Hötter dijo que la compañía planea expandir el conjunto de funciones de la plataforma para cubrir flujos de trabajo adicionales, incluidos datos basados en audio y documentos, y crear productos para una gama mucho más amplia de casos de uso de la industria. Hötter también dijo que acelerarán los planes para hacer que un nivel personal gratuito esté disponible en general, ya que actualmente solo está disponible por invitación.
La ronda inicial de Kern AI fue codirigida por Seedcamp y Faber, con la participación de Xdeck, Another.vc y un puñado de inversores ángeles.