Opadai Lanzó tres nuevos modelos de inteligencia artificial: GPT-4.1, GPT-4.1 Mini y GPT -4.1 Nano. Estas versiones mejoradas exceden a sus predecesores para generar códigohacer un seguimiento instrucciones y comprensión de contextos largos, que también ofrece un Mayor eficiencia y costos reducidos. Con una ventana de contexto expandida a 1 millón de tokens y una base de conocimiento actualizada hasta junio de 2024, estos modelos son Disponible exclusivamente a través de la API de la compañía.
El modelo principal, GPT -4.1, se destaca por su rendimiento en las tareas de codificación, excediendo GPT -4O en 21% y 27% a GPT -4.5 en evaluaciones estándar. Las versiones Mini y Nano ofrecen soluciones más baratas y rápidas, manteniendo un alto nivel de rendimiento, lo que las hace ideales para una amplia gama de aplicaciones, desde agentes autónomos hasta análisis de grandes volúmenes de datos.
A continuación, analizamos el rendimiento de los tres modelos en diferentes áreas, con ejemplos reales.

https://www.youtube.com/watch?v=ka-p9ood-ce
Rendimiento de la generación de código: precisión y eficiencia mejoradas
GPT -4.1 se ha optimizado específicamente para superar los desafíos reales en la ingeniería de software. En la evaluación verificada de SWE -Bench (métrica que evalúa la capacidad de resolver tareas basadas en descripciones de incidentes en repositorios de código, generando parches funcionales y validados), este modelo alcanzó el 54.6% de efectividad, en comparación con el 33.2% de GPT -4O, lo que representa una mejora absoluta de 21.4%.


Entre las mejoras pendientes, GPT -4.1 demuestra mayor consistencia al usar herramientasmejor disparo de formatos de diferencia y un notable Reducción de ediciones innecesarias. Estas habilidades lo hacen más confiable Para tareas como la codificación frontend, el desarrollo basado en agentes y la refactorización de archivos grandes (una práctica de desarrollo de software común para reorganizar y optimizar el código dentro de archivos extensos sin cambiar su funcionalidad externa).
GPT-4.1 minia pesar de su tamaño reducido, es igual o excede GPT -4O en evaluaciones de inteligenciaReducir la latencia casi a la mitad y costo en un 83%.
Finalmente, GPT -4.1 Nano, el modelo más rápido y económico, logró un puntaje del 9.8% en la prueba de codificación de Polyglot Aider (un punto de referencia diseñado para evaluar la capacidad de las LLM en la edición y generación de código en múltiples lenguajes de programación), superando GPT -4O Mini, lo que es impresionante considerando su tamaño y velocidad. Además, obtuvo una puntuación de 80.1% en MMLU (mide la comprensión del lenguaje y el conocimiento de la multitarea) y el 50.3% en GPQA (mide la capacidad de razonamiento profundo en física), lo que lo convierte en una opción ideal para tareas como la clasificación y el autocompleto.
Estas mejoras permiten a los desarrolladores crear aplicaciones más eficientes, Desde asistentes de codificación hasta sistemas de revisión de código automático, facilitando la integración de inteligencia artificial en procesos de desarrollo de software.
Por ejemplo, durante una demostración, GPT -4.1 pudo desarrollar una aplicación de tarjetas educativas (conocido como tarjetas) para el aprendizaje de idiomas, siguiendo instrucciones detalladas y adaptación a las necesidades específicas del usuario.


Más confiabilidad y comprensión del monitoreo de instrucciones
GPT –4.1 mejora significativamente su capacidad para seguir las instrucciones, superando las versiones anteriores como GPT -4O, especialmente en tareas complejas. Esta mejora se ha medido mediante una evaluación interna desarrollada por OpenAI, centrada en 6 áreas:
- Formato personalizado: Genera respuestas en estructuras como XML, YAML o Markdown.
- Instrucciones negativas: Evite los comportamientos explícitamente prohibidos.
- Órdenes secuenciales: Respeta la secuencia exacta de los pasos indicados.
- Requisitos de contenido: Asegura la inclusión de información obligatoria.
- Clasificación: Organizar datos de acuerdo con criterios específicos (como población).
- Gestión de la incertidumbre: Responda con «No sé» o canalice la consulta si no hay datos.
Cada categoría se evalúa en los niveles de dificultad: fácil, medio y difícil. GPT -4.1 se destaca especialmente a niveles difíciles, con un 49% de precisión en comparación con el 29% de GPT -4O.


En él Multichallenge de Benchmark Scale (Evaluación desarrollada por escala AI para medir la capacidad de mantener conversaciones realistas y complejas con múltiples cambios de interacción), GPT -4.1 obtuvo 38.3%, un salto del 10.5% en comparación con GPT -4O. Esta mejora se traduce en interacciones más naturales, reduciendo la necesidad de reformular las indicaciones.
Esto es especialmente útil para construir agentes autónomos que interactúen con usuarios o sistemas, como asistentes virtuales, sistemas de resolución de incidentes o agentes de escritura creativa.
Por ejemplo, empresas como Blue J y Qué (Especializado en generación de código) han implementado GPT -4.1 para generar documentos legales de precisión y resúmenes académicos, mientras que la herramienta de edición Windsurf y la agencia Thomson Reuters Lo usan en entornos de desarrollo donde cada instrucción debe seguirse a la letra.
Comprensión profunda de contextos largos
Todos los modelos de la familia GPT -4.1 apoyan una ventana de contexto de 1 millón de tokenspermitiendo procesar archivos de texto extremadamente largos. En la evaluación de Video-MME, GPT-4.1 alcanzó el 72% en la categoría «Long, no subtítulos» (longitud, sin subtítulos), una mejora de 6.7% en comparación con GPT -4O.
Esto permite nuevos casos de uso como análisis completo de Documentación técnicael Lectura de informes financieros de cientos de páginas, o el Comprensión de los videos o scripts subtitulados Con una sola consulta, identificar tendencias clave y proporcionar un análisis comprensible para la toma de decisiones estratégicas.
Además, gracias a esta capacidad, es posible Construir agentes que operen de forma autónoma durante horasMantener la coherencia y la precisión sin la necesidad de reiniciar el contexto.
Generación de imágenes
A pesar de Los modelos GPT -4.1 no son multimodales como gpt –4o, han sido diseñados para integrar eficazmente Con herramientas de generación de imágenesMejora de la coherencia entre el texto y la imagen. Esto permite a los desarrolladores crear aplicaciones que combinen descripciones textuales detalladas con representaciones visuales precisas, facilitando la creación de contenido multimedia atractivo y personalizado.
Por ejemplo, una aplicación puede usar GPT -4.1 para generar descripciones detalladas de productos y luego, a través de una herramienta de generación de imágenes, crear representaciones visuales que coincidan con esas descripciones, mejorando la experiencia del usuario y la eficacia del marketing.
Foto: Openia
Versión Completa OpenAI lanza los modelos GPT‑4.1, GPT‑4.1 mini y GPT‑4.1 nano








