OpenaAI revela que ha superado un benchmark AGI con el modelo o3, pero luego pide calma

Son horas agitadas para el sector de la inteligencia artificial y, en consecuencia, para el mundo en general (No le enojes a Trump): después de haber planteado la idea de haber logrado AGI, Sam Altman de AbiertoAI invita a todos «a calmarse».

Y qué tranquilo: a pesar de haber hecho «cosas muy interesantes», todos tenemos que rebajar nuestras expectativas «al menos 100 veces», según el genial directivo. Pero entonces ¿cuál es el resultado que se obtiene de ¿OpenAI?

El Santo Grial de la IA: AGI

La razón de toda esta emoción y entusiasmo es simple: cada vez que hablamos de AGI (Inteligencia general artificial, o fuerte, de inteligencia artificial general) fanáticos de la tecnología sí ellos se entusiasman, los pesimistas hacen lo señal de la cruz y, sobre todo, los inversores desconectan cheques.

¿Qué es el AGI?

AGI es, en pocas palabras, el objetivo de empresas como abierta AI, la realización de un sueño nacido con las matemáticas Ada Lovelace (Hija de Byron). Es decir, la capacidad de una IA de «ser sensible” y “tener conciencia”.

Usamos todas las comillas apropiadas, porque ni siquiera es fácil establecer el significado de estas palabras.

Por definición, AGI es un tipo de inteligencia artificial. al menos a la par de la capacidad cognitiva humana (o superior), al menos según lo determinado mediante una serie de pruebas cognitivas. Esto contrasta con la IA estrecha (IA estrecha o IA débil), que se limita a tareas específicas y es el que utilizamos para crear una imagen, resumir un texto o escribir un correo electrónico (Gemini, ChatGPT y los demás, por así decirlo).

¿Para qué sirve el AGI?

AGI es un peligro, por supuesto, y no sólo para los escenarios. ciencia ficción, pero también por una pura pregunta económico: las empresas y las personas que lo gestionan serán aún más poderosas y ricas.

Sin embargo, las ventajas de una tecnología de este tipo accesible a todos serían considerables. AGI permitirá que cualquiera pueda aprender cualquier contenido: sería un tutor siempre disponible, lo que podría ayudar a reducir el desigualdades sociales causado por el acceso a la educación.

¿Y qué pasa con el ¿cuidado de la salud? Una IA así sería una medico virtual siempre disponible, capaz de complementar (no reemplazar) al médico general o al especialista. Y piensa también en las apps: con un asistente AGI desaparecerían. Cualquiera podría programa cualquier cosa, solo pregunta.

Los modelos o3 obtuvieron buenos resultados, pero el ser humano está lejos

La realidad actual, sin embargo, es muy diferente: OpenAI ha declarado que sus modelos o3 han superado el Punto de referencia ARC-AGIlo que representa un paso importante hacia la tecnología. Por una sencilla razón: demuestra que es posiblepero no es una prueba de AGI, ya que sólo quiere estimular la investigación sobre problemas de IA no resueltos.

¿Qué es el punto de referencia ARC-AGI-1?

El punto de referencia ARCO-AGI-1 (Abstraction and Reasoning Corpus for Artificial General Intelligence) mide la capacidad de un modelo de inteligencia artificial para razón y resolver nuevos problemas que requieren adaptabilidad.

El punto fundamental es que para superarlo (lo que nunca ha sucedido desde su creación en 2019) es necesario utilizar «características humanas» como lógica, razonamiento Y deducción, y no información previamente aprendida.

No se puede resolver aumentando el poder brutocomo se hace aumentando la número de parámetros de un LLM (Large Language Model, modelo de lenguaje grande como los modelos actualmente en uso).

Para ello es necesario desarrollar una arquitectura diferente, capaz de «salir» de los parámetros de entrenamiento. La prueba está disponible en el sitio web de ArcPrize, que anuncia con orgullo cómo «permanece invicto».

Pero nos estamos acercando, y ahí es donde modelos o3.

Los resultados de o3

A finales de diciembre de 2024, los modelos OpenAI lograron un resultado excepcional: la 75,7% con un límite de coste de 10.000 dólares (por lo tanto, alta eficiencia), y el87,5% en la configuración o3 con alta capacidad informática (172x, con más recursos computacionales disponibles).

La diferencia es notable: el modelo más eficiente cuesta dinero 20 dolares por tarea, lo que ya es demasiado caro para el uso diario, mientras que la segunda cuesta miles de dolares por actividad.

Las pruebas se realizaron en dos conjuntos de datosuno semiprivado (100 tareas) y otro público (400 tareas), y puedes encontrarlos en esta dirección. Sin embargo, como dijimos, no es posible establecer si o3 es AGI o no mediante estas pruebas.

Porque no se puede saber si o3 es AGI con la prueba y porque o3 no es AGI

Los modelos o3 ya han sido sometidos al siguiente benchmark, ARCO-AGI-2, lo que representa un desafío aún mayor, y los resultados recomiendan proyecciones más suaves.

o3 logró el resultado, en el modo de alta computación, de 30%frente a una puntuación típica de un ser humano inteligente por encima del 95%.

o3 sin embargo, obtuvo una puntuación mucho mejor que o1 (con un resultado en torno al 21%), que a su vez había obtenido una puntuación mucho mejor que GPT-4o (5%) y que a su vez había mejorado GPT-4 (cerca del 0%).

Crecimiento exponencial en pocos meses.

como funciona o3

Los desarrolladores de IA están tomando nuevos caminos, lo vimos con los titanes de Google: ya no aumentan el tamaño sino de manera absurda reducirlos, un proceso llamado La segunda noche de las leyes de reducción de gastos.

Con o3 el mecanismo principal es la búsqueda y la ejecución del programa de lenguaje natural dentro del espacio simbólicobuscando posibles cadenas de pensamiento (CoT) y describiendo los pasos necesarios para resolver la tarea (una vía que ya hemos visto con Gemini 2.0 Flash Thinking).

¿Qué significa? En pocas palabras, mientras que un modelo LLM clásico choca con el novedad, o3 los usa para generar las cadenas de pensamiento, evaluando las soluciones antes de contestar.

El proceso se basa eninferencia, A medida que el modelo aplica su conocimiento aprendido a datos nuevos e invisibles para hacer previsiones, decisiones o resolver tareas en tiempo real.

Pero o3 también agrega capacidades de razonamiento dinámico para abordar problemas complejos y generar resultados procesables. Algo que podría resultar en «intuición» (y de hecho en ArcPrize se explica cómo la investigación está en fase de prueba guiado por la intuición en el espacio del programa es una manera exitosa de permitir la adaptación a tareas arbitrarias).

Finalmente, o3 es más seguro, ya que incorpora una característica llamada Alineación Deliberativa, que permite evaluar críticamente las respuestas frente a protocolos de seguridadreduciendo los riesgos de salidas maliciosas o parcial.

Exageración y llamados a la calma: un juego al que ya deberíamos estar acostumbrados

Volver a AGI y anuncios. En los últimos meses Sam Altman nos acostumbró a declaraciones fuertes, que luego fueron rápidamente reducidas, e intervino rápidamente calma las almas.

En este caso, el 5 de enero publicó un post declarando que la singularidad está cerca (la singularidad es el momento en que la inteligencia artificial supera a la de los humanos), luego unos días después AGI está lejos y necesitamos reducir nuestras expectativas.

…

OpenaAI revela que ha superado un benchmark AGI con el modelo o3, pero luego pide calma

Pilar Benegas

Related Posts

Niños: El juego online que estimula el pensamiento infantil con preguntas de la vida diaria

Cuál es la IA más precisa y fiable hoy: ChatGPT, Grok, Gemini, entre otras

Alerta en casa: cómo saber si un intruso está conectado a tu WiFi y cómo evitarlo

Elon Musk activa Starlink para celulares en Latinoamérica: quiénes podrán conectarse

¿Cómo volverse millonario según la inteligencia artificial?

Premium Content

La escena final de Janine de ‘The Handmaid’s Tale’ Finale: ‘Era inconsolable’

Estas son todas las novedades que trae GPT-4.5, el chatbot de OpenAI para liderar la IA

Bill Skarsgård explica el «viaje tortuoso» de filmar el nuevo thriller de Anthony Hopkins ‘Locked’

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password

OpenaAI revela que ha superado un benchmark AGI con el modelo o3, pero luego pide calma

El Santo Grial de la IA: AGI

¿Qué es el AGI?

¿Para qué sirve el AGI?

Los modelos o3 obtuvieron buenos resultados, pero el ser humano está lejos

¿Qué es el punto de referencia ARC-AGI-1?

Los resultados de o3

Porque no se puede saber si o3 es AGI con la prueba y porque o3 no es AGI

como funciona o3

Exageración y llamados a la calma: un juego al que ya deberíamos estar acostumbrados

Related Posts

Premium Content

Browse by Tags

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password