OpenAI lanza GPT-4, una IA multimodal que, según afirma, es de última generación

Después de meses de anticipación, OpenAI ha lanzado un nuevo y poderoso modelo de inteligencia artificial de comprensión de imágenes y texto, GPT-4, que la compañía llama «el último hito en su esfuerzo por ampliar el aprendizaje profundo».

GPT-4 está disponible hoy a través de la API de OpenAI con una lista de espera y en ChatGPT Plus, el plan premium de OpenAI para ChatGPT, su chatbot viral impulsado por IA.

Se ha estado escondiendo a plena vista, como resulta. Microsoft confirmó hoy que Bing Chat, su tecnología de chatbot desarrollada conjuntamente con OpenAI, se ejecuta en GPT-4.

Según OpenAI, GPT-4 puede aceptar entradas de imágenes y texto, una mejora con respecto a GPT-3.5, su predecesor, que solo aceptaba texto, y funciona a «nivel humano» en varios puntos de referencia profesionales y académicos. Por ejemplo, GPT-3 aprueba un examen de barra simulado con una puntuación de alrededor del 10% superior de los examinados.

OpenAI pasó seis meses alineando iterativamente GPT-4 utilizando las lecciones de un programa de prueba contradictorio, así como ChatGPT, lo que resultó en «los mejores resultados» en factualidad, capacidad de dirección y rehusarse a salirse de las barandillas, según la compañía.

“En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil”, escribió OpenAI en una publicación de blog anunciando GPT-4. «La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5».

Sin duda, uno de los aspectos más interesantes de GPT-4 es su capacidad para comprender tanto las imágenes como el texto. GPT-4 puede subtitular, e incluso interpretar, imágenes relativamente complejas, por ejemplo, identificando un adaptador de cable Lightning a partir de una imagen de un iPhone enchufado.

La capacidad de comprensión de imágenes aún no está disponible para todos los clientes de OpenAI; para empezar, OpenAI la está probando con un solo socio, Be My Eyes. Con tecnología GPT-4, la nueva función de Voluntario Virtual de Be My Eyes puede responder preguntas sobre las imágenes que se le envían.

Be My Eyes explica cómo funciona en una publicación de blog:

“Por ejemplo, si un usuario envía una foto del interior de su refrigerador, el Voluntario Virtual no solo podrá identificar correctamente lo que contiene, sino también extrapolar y analizar qué se puede preparar con esos ingredientes. La herramienta también puede ofrecer una serie de recetas para esos ingredientes y enviar una guía paso a paso sobre cómo prepararlos”.


Continuar leyendo: OpenAI lanza GPT-4, una IA multimodal que, según afirma, es de última generación

Salir de la versión móvil