Vea esta visualización primero en la aplicación Voronoi.

Use esta visualización
AI vs. rendimiento humano en tareas técnicas
Esto se publicó originalmente en nuestra aplicación Voronoi. Descargue la aplicación de forma gratuita en iOS o Android y descubra increíbles gráficos de datos de una variedad de fuentes de confianza.
La brecha entre el razonamiento humano y de la máquina se está reduciendo, y rápido.
Durante el año pasado, AI Systems ha seguido viendo avances rápidos, superando el rendimiento humano en tareas técnicas donde anteriormente se quedaron cortos, como el razonamiento avanzado y las matemáticas y visuales.
Este gráfico visualiza el rendimiento de los sistemas de inteligencia artificial en relación con las líneas de base humana para ocho puntos de referencia de IA que miden tareas que incluyen:
- Clasificación de imágenes
- Razonamiento visual
- Comprensión de lectura de nivel medio
- Comprensión del idioma inglés
- Comprensión de lenguaje multitarea
- Matemáticas a nivel de competencia
- Preguntas sobre ciencias a nivel de doctorado
- Comprensión y razonamiento multimodal
Esta visualización es parte de Semana de IA del capitalista visualpatrocinado por Terzo. Los datos provienen del informe del índice AI de la Universidad de Stanford 2025.
Un punto de referencia de IA es una prueba estandarizada utilizada para evaluar el rendimiento y las capacidades de los sistemas de IA en tareas específicas.
Los modelos de IA están superando a los humanos en tareas técnicas
A continuación, mostramos cómo los modelos de IA se han desempeñado en relación con la línea de base humana en varias tareas técnicas en los últimos años.
| Año | Rendimiento relativo a la línea de base humana (100%) | Tarea |
|---|---|---|
| 2012 | 89.15% | Clasificación de imágenes |
| 2013 | 91.42% | Clasificación de imágenes |
| 2014 | 96.94% | Clasificación de imágenes |
| 2015 | 99.47% | Clasificación de imágenes |
| 2016 | 100.74% | Clasificación de imágenes |
| 2016 | 80.09% | Razonamiento visual |
| 2017 | 101.37% | Clasificación de imágenes |
| 2017 | 82.35% | Comprensión de lectura de nivel medio |
| 2017 | 86.49% | Razonamiento visual |
| 2018 | 102.85% | Clasificación de imágenes |
| 2018 | 96.23% | Comprensión de lectura de nivel medio |
| 2018 | 86.70% | Razonamiento visual |
| 2019 | 103.75% | Clasificación de imágenes |
| 2019 | 36.08% | Comprensión de lenguaje multitarea |
| 2019 | 103.27% | Comprensión de lectura de nivel medio |
| 2019 | 94.21% | Comprensión del idioma inglés |
| 2019 | 90.67% | Razonamiento visual |
| 2020 | 104.11% | Clasificación de imágenes |
| 2020 | 60.02% | Comprensión de lenguaje multitarea |
| 2020 | 103.92% | Comprensión de lectura de nivel medio |
| 2020 | 99.44% | Comprensión del idioma inglés |
| 2020 | 91.38% | Razonamiento visual |
| 2021 | 104.34% | Clasificación de imágenes |
| 2021 | 7.67% | Matemáticas a nivel de competencia |
| 2021 | 66.82% | Comprensión de lenguaje multitarea |
| 2021 | 104.15% | Comprensión de lectura de nivel medio |
| 2021 | 101.56% | Comprensión del idioma inglés |
| 2021 | 102.48% | Razonamiento visual |
| 2022 | 103.98% | Clasificación de imágenes |
| 2022 | 57.56% | Matemáticas a nivel de competencia |
| 2022 | 83.74% | Comprensión de lenguaje multitarea |
| 2022 | 101.67% | Comprensión del idioma inglés |
| 2022 | 104.36% | Razonamiento visual |
| 2023 | 47.78% | Preguntas sobre ciencias a nivel de doctorado |
| 2023 | 93.67% | Matemáticas a nivel de competencia |
| 2023 | 96.21% | Comprensión de lenguaje multitarea |
| 2023 | 71.91% | Comprensión y razonamiento multimodal |
| 2024 | 108.00% | Preguntas sobre ciencias a nivel de doctorado |
| 2024 | 108.78% | Matemáticas a nivel de competencia |
| 2024 | 102.78% | Comprensión de lenguaje multitarea |
| 2024 | 94.67% | Comprensión y razonamiento multimodal |
| 2024 | 101.78% | Comprensión del idioma inglés |
Desde ChatGPT hasta Géminis, muchos de los principales modelos de IA del mundo están superando la línea de base humana en una variedad de tareas técnicas.
La única tarea en la que los sistemas de IA aún no han alcanzado a los humanos es la comprensión y el razonamiento multimodal, lo que implica el procesamiento y el razonamiento en múltiples formatos y disciplinas, como imágenes, cuadros y diagramas.
Sin embargo, la brecha se está cerrando rápidamente.
En 2024, el modelo O1 de OpenAI obtuvo un 78.2% en MMMU, un punto de referencia que evalúa modelos en tareas de múltiples disciplinas que exigen el conocimiento de las asignaturas a nivel universitario.
Esto fue solo 4.4 puntos porcentuales por debajo del punto de referencia humano del 82.6%. El modelo O1 también tiene una de las tasas de alucinación más bajas de todos los modelos de IA.
Este fue un gran salto desde finales de 2023, donde Google Gemini obtuvo solo un 59.4%, destacando la rápida mejora del rendimiento de la IA en estas tareas técnicas.
Para sumergirse en todo el contenido de la Semana AI, visite nuestro Hub de contenido de AI, traído por Terzo.
Obtenga más información sobre la aplicación Voronoi 
Para obtener más información sobre la industria global de IA, consulte este gráfico que visualiza qué países están ganando la carrera de patentes de IA.
Continuar leyendo: Visualizar la IA frente al rendimiento humano en tareas técnicas







