Los modelos de corrección ortográfica multilingüe a gran escala de Microsoft Bing, denominados colectivamente Speller100, se están implementando en todo el mundo con alta precisión y alta recordación en más de 100 idiomas.
Bing dice que alrededor del 15% de las consultas enviadas por los usuarios tienen errores ortográficos, lo que puede generar respuestas incorrectas y resultados de búsqueda subóptimos.
Para abordar este problema, Bing ha creado lo que dice es el sistema de corrección ortográfica más completo jamás creado.
En consultas de pruebas A / B con y sin Speller100, Bing observó los siguientes resultados:
- El número de páginas sin resultados se redujo hasta en un 30%.
- El número de veces que los usuarios tuvieron que reformular manualmente su consulta se redujo en un 5%.
- La cantidad de veces que los usuarios hicieron clic en la sugerencia de ortografía aumentó de un solo dígito al 67%.
- La cantidad de veces que los usuarios hicieron clic en cualquier elemento de la página pasó de un solo dígito al 70%.
¿Cómo logró Bing esto? Siga leyendo para obtener más información sobre Speller100.
Mejora de la corrección ortográfica en los resultados de búsqueda de Bing
La corrección ortográfica ha sido durante mucho tiempo una prioridad para Bing, y el motor de búsqueda está dando un paso más con la inclusión de más idiomas de todo el mundo.
«Para que Bing sea más inclusivo, nos propusimos expandir nuestro servicio actual de corrección ortográfica a más de 100 idiomas, estableciendo el mismo listón alto de calidad que establecimos para las dos docenas de idiomas originales».
Anuncio publicitario
Continuar leyendo a continuación
El lanzamiento de Speller100 representa un importante paso adelante para Bing y es posible gracias a los recientes avances en IA.
La tecnología detrás de Speller100 se explica en la reciente publicación del blog de la compañía. Estos son algunos detalles clave de la nueva tecnología de corrección ortográfica de Bing.
Tecnología Speller100 de Microsoft Bing
Créditos de Bing aprendizaje cero como un avance importante en IA que ayuda a hacer posible Speller100.
El aprendizaje cero permite que un modelo de inteligencia artificial aprenda y corrija la ortografía con precisión sin ningún dato de entrenamiento adicional etiquetado específico del idioma. Esto contrasta con las soluciones tradicionales de corrección ortográfica que se han basado únicamente en datos de entrenamiento para aprender la ortografía de un idioma.
Confiar en los datos de entrenamiento es un desafío cuando se trata de corregir la ortografía de idiomas donde hay una cantidad inadecuada de datos. Ese es el problema para el que está diseñado el aprendizaje zero-shot.
“Imagina que alguien te hubiera enseñado a deletrear en inglés y automáticamente aprendieras a deletrear también en alemán, holandés, afrikáans, escocés y luxemburgués. Ese es lo que permite el aprendizaje zero-shot, y es un componente clave en Speller100 que nos permite expandirnos a idiomas con muy pocos o ningún dato «.
Anuncio publicitario
Continuar leyendo a continuación
La corrección ortográfica no es un procesamiento del lenguaje natural
Bing hace la distinción de que, aunque se han realizado avances significativos en el procesamiento del lenguaje natural, la corrección ortográfica es una tarea completamente diferente.
Todos los errores ortográficos se pueden clasificar en dos tipos:
- Error sin palabras: Ocurre cuando la palabra no está en el vocabulario de un idioma determinado.
- Error de palabra real: Ocurre cuando la palabra es válida pero no encaja en el contexto más amplio.
Bing ha desarrollado un enfoque de aprendizaje profundo para corregir estos errores ortográficos que se inspira en el modelo BART de Facebook. Sin embargo, se diferencia de BART en que la corrección ortográfica se enmarca como un problema a nivel de carácter.
Para abordar un problema a nivel de personaje, el modelo Speller100 de Bing se entrena usando mutaciones a nivel de personaje que imitan errores ortográficos.
Bing llama a estas «funciones de ruido»:
“Hemos diseñado funciones de ruido para generar errores comunes de rotación, inserción, eliminación y reemplazo.
El uso de una función de ruido redujo significativamente nuestra demanda de anotaciones etiquetadas por humanos, que a menudo se requieren en el aprendizaje automático. Esto es muy útil para los idiomas para los que tenemos pocos o ningún dato de entrenamiento «.
Las funciones de ruido permiten a Bing entrenar a Speller100 para corregir la ortografía de los idiomas para los que no hay una gran cantidad de datos de consulta mal escritos disponibles.
En cambio, Bing se conforma con texto normal extraído de páginas web que se recopila a través del rastreo web regular. Se dice que hay una cantidad suficiente de texto en la web para facilitar la formación de cientos de idiomas.
“Esta tarea de capacitación previa demuestra ser un primer paso sólido para resolver la corrección ortográfica multilingüe para más de 100 idiomas. Ayuda a alcanzar el 50% de la recuperación de correcciones para los mejores candidatos en idiomas para los que no tenemos datos de entrenamiento «.
Si bien este es un avance significativo, Bing dice que el 50% del recuerdo no es lo suficientemente bueno. Ahí es donde entra el aprendizaje cero.
Para idiomas sin datos de entrenamiento, Bing utiliza la propiedad de aprendizaje zero-shot para las familias de idiomas de destino. Esto se hace basándose en la noción de que se sabe que la mayoría de los idiomas del mundo están relacionados con otros.
Anuncio publicitario
Continuar leyendo a continuación
“Esta similitud ortográfica, morfológica y semántica entre idiomas en el mismo grupo hace que un modelo de error de aprendizaje de prueba cero sea muy eficiente y efectivo …
El aprendizaje zero-shot hace posible el aprendizaje de la predicción ortográfica para estos lenguajes de bajos recursos o sin recursos «.
El lanzamiento de Speller100 en Bing es el primer paso en un esfuerzo mayor para implementar la tecnología en más productos de Microsoft.
Fuente: Blog de investigación de Microsoft