Cohere afirma que su nuevo modelo AYA Vision AI es el mejor de su clase

Cohere for AI, AI Startup’s sin fines de lucro del laboratorio de investigación sin fines de lucro de Cohere, lanzó esta semana un modelo de IA «abierto» multimodal, AYA Vision, el laboratorio afirmado es el mejor de su clase.

AYA Vision puede realizar tareas como escribir subtítulos de imágenes, responder preguntas sobre fotos, traducir el texto y generar resúmenes en 23 idiomas principales. Cohere, que también está haciendo que la visión de AYA esté disponible de forma gratuita a través de WhatsApp, lo calificó «un paso significativo para hacer que los avances técnicos sean accesibles para los investigadores de todo el mundo».

«Si bien la IA ha logrado un progreso significativo, todavía hay una gran brecha en el funcionamiento de los modelos en diferentes idiomas, uno que se vuelve aún más notable en las tareas multimodales que involucran tanto texto como imágenes», escribió Cohere en una publicación de blog. «La visión de AYA tiene como objetivo ayudar explícitamente a cerrar esa brecha».

Aya Vision viene en un par de sabores: Aya Vision 32b y Aya Vision 8B. El más sofisticado de los dos, Aya Vision 32B, establece una «nueva frontera», dijo Cohere, superando a los modelos 2 veces su tamaño, incluida la visión LLAMA-3.2 90B de Meta en ciertos puntos de referencia de comprensión visual. Mientras tanto, AYA Vision 8B obtiene mejor en algunas evaluaciones que los modelos 10x de su tamaño, según Cohere.

Ambos modelos están disponibles en la plataforma AI Dev que abrazan Face bajo una licencia Creative Commons 4.0 con el adición de uso aceptable de Cohere. No se pueden utilizar para aplicaciones comerciales.

Cohere dijo que AYA Vision fue entrenada utilizando un «grupo diverso» de conjuntos de datos en inglés, que el laboratorio tradujo y usó para crear anotaciones sintéticas. Las anotaciones, también conocidas como etiquetas o etiquetas, ayudan a los modelos a comprender e interpretar datos durante el proceso de capacitación. Por ejemplo, la anotación para entrenar un modelo de reconocimiento de imagen podría tomar la forma de marcas alrededor de objetos o subtítulos que se refieren a cada persona, lugar u objeto representado en una imagen.

El modelo de visión AYA de Cohere puede realizar una variedad de tareas de comprensión visual.Créditos de imagen:Adherirse

El uso de Cohere de anotaciones sintéticas, es decir, anotaciones generadas por AI, está en tendencia. A pesar de sus desventajas potenciales, los rivales, incluido OpenAi, están aprovechando cada vez más datos sintéticos para entrenar modelos a medida que se seca el pozo de los datos del mundo real. La firma de investigación Gartner estima que el 60% de los datos utilizados para los proyectos de IA y Analytics el año pasado se crearon sintéticamente.

Según Cohere, la capacitación de AYA Vision sobre anotaciones sintéticas permitió al laboratorio utilizar menos recursos al tiempo que logró un rendimiento competitivo.

“Esto muestra nuestro enfoque crítico en la eficiencia y [doing] más usando menos cómputo ”, escribió Cohere en su blog. «Esto también permite un mayor apoyo para la comunidad de investigación, que a menudo tienen un acceso más limitado para calcular recursos».

Junto con Aya Vision, Cohere también lanzó una nueva suite de referencia, AyavisionBench, diseñada para investigar las habilidades de un modelo en tareas de «idioma de visión», como identificar diferencias entre dos imágenes y la conversión de capturas de pantalla a codificar.

La industria de la IA se encuentra en medio de lo que algunos han llamado una «crisis de evaluación», una consecuencia de la popularización de puntos de referencia que dan puntajes agregados que se correlacionan mal con el dominio de las tareas a la mayoría de los usuarios de IA. Cohere afirma que AyavisionBench es un paso hacia la rectificación de esto, proporcionando un marco «amplio y desafiante» para evaluar la comprensión interlingüística y multimodal de un modelo.

Con suerte, ese es el caso.

«[T]El conjunto de datos sirve como un punto de referencia robusto para evaluar modelos en idioma de visión en entornos multilingües y del mundo real ”, escribieron Cohere investigadores en una publicación sobre la cara de abrazo. «Hacemos este conjunto de evaluación a disposición de la comunidad de investigación para impulsar las evaluaciones multilingües multilingües».

Continuar leyendo: Cohere afirma que su nuevo modelo AYA Vision AI es el mejor de su clase