La inteligencia artificial avanza por saltos y límites, desafiando las habilidades cognitivas humanas con cada iteración. Ahora, un grupo de investigadores ha diseñado lo que llaman el Último examen de la humanidad cualquiera El último examen de la humanidad (HLE).
Es una prueba que probará hasta qué punto los modelos de lenguaje avanzado pueden comprender y razonar sobre temas complejos sin depender de la información accesible en Internet.
El gran desafío no es solo hacer que la IA sea más precisa, sino también enseñarle a reconocer sus propias limitaciones.. Con estos avances, nos acercamos a una era en la que la inteligencia artificial no solo responderá preguntas con gran precisión, sino que también sabemos cuándo es mejor decir: «No lo sé».
Una prueba diseñada para confundir ai
HLE no es un cuestionario común. Ha sido desarrollado por un equipo de expertos en inteligencia artificial y seguridad tecnológica con El propósito de identificar las lagunas cognitivas de los grandes modelos de idiomas (LLM), como Google, Openai y otras compañías.
Los resultados de la prueba se publicaron en un estudio en ArxivAunque aún no han sido sometidos a parejas, según Mecánica popular.
Computadora hoy
Su objetivo no es solo medir su precisión, sino también evaluar su capacidad de razonamiento contra problemas cuya solución no está fácilmente disponible en bases de datos. «Cada pregunta tiene una solución conocida, inequívoca y fácilmente verificable, pero no se puede encontrar rápidamente en Internet«Los investigadores dijeron en el estudio.
Para su diseño, los investigadores reunieron preguntas de varias disciplinas: matemáticas avanzadas, biología, ingeniería, lingüística, física, química y ciencias sociales. Se seleccionaron aquellos que desafían la comprensión, la interpretación y la lógica más allá del simple reconocimiento de los patrones.
Los resultados hasta ahora reflejan que la inteligencia artificial todavía tiene un largo camino por recorrer. Modelos como Google y Deepseek Gemini han obtenido puntajes entre 3 % y 14 %, una cifra muy baja en comparación con lo que esperaría un humano con capacitación académica avanzada.
Sin embargo, los expertos creen que esta brecha se cerrará pronto. Según las proyecciones del estudio, es probable que A finales de 2025, los modelos de IA alcanzan al menos un 50 % de precisión en el examenque marcaría un avance significativo en su desarrollo.
El proceso de evaluación también ha sido innovador. Para garantizar la imparcialidad, los resultados se verifican con otra inteligencia artificial, GPT-40, que analiza si las respuestas proporcionadas son correctas y permite variaciones en la escritura que no alteran el significado.
Un aspecto interesante del experimento es que No solo la capacidad de responder correctamente, sino también el nivel de certeza con el que los modelos de IA ofrecen sus respuestas.
En las fases futuras de desarrollo, se espera que estos sistemas puedan identificar cuándo no tienen suficiente información para dar una respuesta segura en lugar de generar una conclusión incorrecta con total confianza.
El desafío de la incertidumbre en la IA
Uno de los ancianos Los problemas que enfrentan estos sistemas son su tendencia a ofrecer respuestas incorrectas con seguridad absoluta.. Para contrarrestar esto, los investigadores planean capacitar a la IA para incluir un índice de confianza en sus respuestas, lo que indica con qué grado creen que tienen razón.
Este tipo de aprendizaje permitiría a los modelos no solo más precisos, sino también más transparentes sobre sus propias limitaciones.
Si una IA puede reconocer que una pregunta está más allá de su capacidad de razonamiento, podría evitar la propagación de información errónea y mejorar su utilidad en aplicaciones críticas, como la investigación científica y la toma de decisiones comerciales.
«Si bien los LLM actuales logran una precisión muy baja en HLE, la historia reciente muestra que los puntos de referencia están rápidamente saturados, y los modelos progresan drásticamente de un rendimiento cercano a cero a uno casi perfecto en un corto período de tiempo», dijeron los investigadores en el estudio.
Saber Cómo trabajamos en Informática.
Etiquetas: Inteligencia artificial
Con información de Telam, Reuters y AP








