El modelo de IA o3 de OpenAI queda por debajo de lo prometido en los benchmarks

La compañía de Sam Altman tomó vacaciones de Navidad para acercarse a la inteligencia artificial general llamada (AGI).

Este modelo se hizo conocido en sus celebridades 12 días de OpenaiEn el que la tecnología presentó otras de sus novedades más poderosas, como el modo de voz avanzado para ChatGPT, el lanzamiento del motor de búsqueda de búsqueda de chatgpt en la versión gratuita del chatbot o la llegada oficial de su modelo IA O1.

Como se explica en esta presentación, el vicepresidente senior de investigación de OpenAi, Mark Chen, la familia de los modelos IA O3 no tuvo paralelo, al proporcionar mejoras de los usuarios en el rendimiento en comparación con sus predecesores, según los resultados de grandes pruebas de prestigio.

Entre ellos, el examen de invitación, que determinó que O3 logró una precisión del 96.7% en comparación con el 83.3% obtenido O1.

Otra de las pruebas a las quey OpenAi presentó su modelo es el conocido como Arc-Agique evalúa la eficiencia con la que una IA puede comprender y generar una respuesta a partir de poca información, lo que muestra que puede abordar la inteligencia humana. Con este parámetro, Operai dijo que O3 había logrado una puntuación del 87.5%.

Teniendo en cuenta que el umbral del 85% es comparable al rendimiento humano, la tecnología sugirió que su invención fue un gran avance para la inteligencia artificial generativa y comenzó a frotar sus manos porque, hasta entonces, ningún otro desarrollador de este tipo de tecnología lo había logrado.

OpenAi prometió tasas de rendimiento que O3 no alcanza

Estas grandes promesas de poder y rendimiento parecen quedarse en algo ahora, cuando se ha determinado que OpenAI no se acerca al AGI y lo había prometido. Al menos, esto es declarado por Frontiermath, un punto de referencia para problemas matemáticos a nivel de expertos que se utiliza para medir las capacidades matemáticas de la inteligencia artificial.

Y, entre las muchas flores que OpenAi fue lanzada en relación con las amplias capacidades de este modelo, está la relacionada con este punto de referencia, ya que la compañía dijo que su IA podría Responda un poco más de una cuarta parte de las preguntas de Frontiermath, 25% muy superior al 2% que pudieron lograr la competencia.

Poco después de su lanzamiento, Epoch AI, jefe de Frontiermath, publicó los resultados de sus pruebas de referencia independientes de O3 y aseguró que nada, que OpenAi había obtenido un puntaje cercano al 10% en Frontyermath, es DECIA, 15% menos de lo que habían declarado al anunciar su modelo de IA.

En cualquier caso, Epoch se lavó las manos insistiendo en que su configuración de prueba estuviera lejos de la que Operai avanzó porque había usado una versión anterior de Frontiermath para sus evaluaciones y que la habían comparado con la actualización más reciente de su punto de referencia.

La organización sin fines de lucro ARC Premio Foundation ha firmado esta declaración y ha dicho que «todos los niveles informáticos de O3 publicados [por OpenAI] Son más pequeños «que la versión que ha tenido la oportunidad de probar.

Así, dijo que «El O3 lanzado está optimizado para el uso de chat/producto», Lo que podría explicar que sus resultados no son tan prominentes como los anunciados por OpenAI, que evalúa sus modelos con dispositivos internos más potentes. Esto, en su opinión, «presenta fortalezas y debilidades en Arc-Agi».

Por lo tanto, ha sugerido que esperan que los niveles de cálculo más grandes obtengan resultados más competentes en las pruebas de referencia. Con esto, ha avanzado que probarán nuevamente los niveles de cálculo publicados y que anunciarán los resultados actualizados, para etiquetar lo que ya tiene en su mano como puntajes correspondientes a la «vista previa» del modelo de OpenAI.

Operai confía en que su modelo continuará mejorando con el tiempo

Desde OpenAi también han cubierto sus espaldas, lo que sugiere que si no se han obtenido los resultados esperados, es porque no se ha utilizado como debería.

En una sesión compartida en YouTube, Wenda Zhou, uno de los miembros del equipo técnico de Operai, dijo hace unos días que el O3 en producción «está más optimizado para casos de uso reales» y que su velocidad es más alta que la que mostró en diciembre.

En esta reunión de expertos, Zhou también reconoció que, aunque O3 se había mejorado para ser «más rentable y útil en general», Operai continuó confiando en que «este modelo es mucho mejor». «No tendremos que esperar tanto tiempo para obtener una respuesta, algo habitual con este tipo de modelos», dijo.

Queda por ver cuál es la respuesta de O3 en las próximas semanas, ya que la tecnológica lo está perfeccionando. Sin embargo, en uno corto, pegará un vuelo para moverse de él y O4-Mini, que también está disponible para usuarios de pagos; al esperado GPT-5. Aunque su aterrizaje se ha retrasado, todo indica que será mejor de lo esperado.

Saber Cómo trabajamos en Informática.

Etiquetas: Inteligencia artificial

Con información de Telam, Reuters y AP

El modelo de IA o3 de OpenAI queda por debajo de lo prometido en los benchmarks

Oliver Roberts

Related Posts

Aquí está cómo ver Llamacon, el primer evento de desarrollador de IA de Meta

Google Wallet Agregar tarjeta NFC Agregar sistema para Android

Prefiero hacerme el harakiri antes que fracasar

Motorola Edge 60 Pro Review: Hands-On

Spotify agrega a los suscriptores como amantes de la música sintonizan el arancel de Trump ‘Noise’

Premium Content

a dos años de la «guerra olvidada», la mayor marea humana del planeta huye para salvar su vida

Hor�Scopo del Nió Prodigio: ¿Qué tienes para cada señal de Zod�Co este martes 9 de septiembre?

Trailer de la temporada 3 de ‘Juego Squid’ desatado por Netflix

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password

El modelo de IA o3 de OpenAI queda por debajo de lo prometido en los benchmarks

OpenAi prometió tasas de rendimiento que O3 no alcanza

Operai confía en que su modelo continuará mejorando con el tiempo

Related Posts

Premium Content

Browse by Tags

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password