OpenAI lanza GPT-4, una IA multimodal que, según afirma, es de última generación

By Jose Prieto
1 año Ago

Después de meses de anticipación, OpenAI ha lanzado un nuevo y poderoso modelo de inteligencia artificial de comprensión de imágenes y texto, GPT-4, que la compañía llama «el último hito en su esfuerzo por ampliar el aprendizaje profundo».

GPT-4 está disponible hoy a través de la API de OpenAI con una lista de espera y en ChatGPT Plus, el plan premium de OpenAI para ChatGPT, su chatbot viral impulsado por IA.

Se ha estado escondiendo a plena vista, como resulta. Microsoft confirmó hoy que Bing Chat, su tecnología de chatbot desarrollada conjuntamente con OpenAI, se ejecuta en GPT-4.

aquí está GPT-4, nuestro modelo más capaz y alineado hasta el momento. está disponible hoy en nuestra API (con lista de espera) y en ChatGPT+.https://t.co/2ZFC36xqAJ

todavía tiene fallas, todavía es limitado y aún parece más impresionante en el primer uso que después de pasar más tiempo con él.

— Sam Altman (@sama) 14 de marzo de 2023

Según OpenAI, GPT-4 puede aceptar entradas de imágenes y texto, una mejora con respecto a GPT-3.5, su predecesor, que solo aceptaba texto, y funciona a «nivel humano» en varios puntos de referencia profesionales y académicos. Por ejemplo, GPT-3 aprueba un examen de barra simulado con una puntuación de alrededor del 10% superior de los examinados.

OpenAI pasó seis meses alineando iterativamente GPT-4 utilizando las lecciones de un programa de prueba contradictorio, así como ChatGPT, lo que resultó en «los mejores resultados» en factualidad, capacidad de dirección y rehusarse a salirse de las barandillas, según la compañía.

“En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil”, escribió OpenAI en una publicación de blog anunciando GPT-4. «La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5».

Sin duda, uno de los aspectos más interesantes de GPT-4 es su capacidad para comprender tanto las imágenes como el texto. GPT-4 puede subtitular, e incluso interpretar, imágenes relativamente complejas, por ejemplo, identificando un adaptador de cable Lightning a partir de una imagen de un iPhone enchufado.

La capacidad de comprensión de imágenes aún no está disponible para todos los clientes de OpenAI; para empezar, OpenAI la está probando con un solo socio, Be My Eyes. Con tecnología GPT-4, la nueva función de Voluntario Virtual de Be My Eyes puede responder preguntas sobre las imágenes que se le envían.

Be My Eyes explica cómo funciona en una publicación de blog:

“Por ejemplo, si un usuario envía una foto del interior de su refrigerador, el Voluntario Virtual no solo podrá identificar correctamente lo que contiene, sino también extrapolar y analizar qué se puede preparar con esos ingredientes. La herramienta también puede ofrecer una serie de recetas para esos ingredientes y enviar una guía paso a paso sobre cómo prepararlos”.

Continuar leyendo: OpenAI lanza GPT-4, una IA multimodal que, según afirma, es de última generación

Categories: Sin categoría

Related Content

Mike Flanagan no necesita al exorcista (pero el exorcista necesita a Mike Flanagan)

El Sant Andreu destrona al Sabadell y gana el primer título de su historia

Más tormentas se mueven por el área de Houston, donde cientos han sido rescatados de las inundaciones

El presidente del Comité Nacional Republicano, Michael Whatley, insta a la unidad del partido en medio de la agitación del Partido Republicano en la Cámara

Cómo restablecer su teléfono a los valores de fábrica antes de venderlo