El miércoles, Google anunció Gemini, una familia de modelos de IA multimodal que espera rivalice con el GPT-4 de OpenAI, que impulsa la versión paga de ChatGPT. Google afirma que la versión más grande de Gemini supera «los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM)». Es una continuación de PaLM 2, un modelo de IA anterior que Google esperaba que igualara la capacidad del GPT-4.
Una versión en inglés especialmente adaptada de su modelo Gemini de nivel medio está disponible ahora en más de 170 países como parte del chatbot Google Bard, aunque no en la UE ni en el Reino Unido debido a posibles problemas regulatorios.
Al igual que GPT-4, Gemini puede manejar múltiples tipos (o «modos») de entrada, lo que lo convierte en multimodal. Eso significa que puede procesar texto, código, imágenes e incluso audio. El objetivo es crear un tipo de inteligencia artificial que pueda resolver problemas con precisión, dar consejos y responder preguntas en diversos campos, desde lo mundano hasta lo científico. Google dice que esto impulsará una nueva era en la informática y espera integrar estrechamente la tecnología en sus productos.
«Las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información visual y escrita compleja», escribe Google. «Su notable capacidad para extraer conocimientos de cientos de miles de documentos mediante la lectura, el filtrado y la comprensión de la información ayudará a generar nuevos avances a velocidades digitales en muchos campos, desde la ciencia hasta las finanzas».
Google dice que Gemini estará disponible en tres tamaños: Gemini Ultra («para tareas muy complejas»), Gemini Pro («para escalar en una amplia gama de tareas») y Gemini Nano («para tareas en el dispositivo», como el Pixel 8 de Google). teléfono inteligente profesional). Es probable que cada uno esté separado en complejidad por el número de parámetros. Más parámetros significan una red neuronal más grande que generalmente es más capaz de ejecutar tareas más complejas pero requiere más potencia computacional para ejecutarse. Eso significa que Nano, el más pequeño, está diseñado para ejecutarse localmente en dispositivos de consumo, mientras que Ultra sólo puede ejecutarse en hardware de centro de datos.
«Estos son los primeros modelos de la era Gemini y la primera realización de la visión que teníamos cuando formamos Google DeepMind a principios de este año», escribió el director ejecutivo de Google, Sundar Pichai, en un comunicado. «Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa. Estoy realmente emocionado por lo que está por venir y por las oportunidades que Gemini desbloqueará para personas de todo el mundo».
Aunque Gemini estará disponible en tres tamaños, sólo el modelo de nivel medio está disponible para uso público. Como se mencionó anteriormente, Google Bard ahora ejecuta una versión especialmente optimizada de Gemini Pro. Según nuestras pruebas informales hasta ahora, Gemini Pro parece funcionar mucho mejor que la versión anterior de Bard, que se basó en el modelo de lenguaje PaLM 2 de Google.
Google también afirma que Gemini es más escalable y eficiente que sus modelos de IA anteriores cuando se ejecuta en las Unidades de Procesamiento Tensoriales (TPU) personalizadas de Google. «En los TPU», dice Google, «Gemini funciona significativamente más rápido que los modelos anteriores, más pequeños y con menos capacidades».
Y supuestamente es excelente codificando. Google entrenó una versión especial de Gemni centrada en la codificación llamada AlphaCode 2, que «sobresale en la resolución de problemas de programación competitivos que van más allá de la codificación e involucran matemáticas complejas e informática teórica», según Google. Gemini también es excelente para inflar el lenguaje de relaciones públicas de Google: si los modelos fueran menos capaces y revolucionarios, ¿el texto de marketing sería menos impresionante? Es dudoso.