LUna carrera para obtener el modelo de IA más avanzado y eficiente está en pleno desarrollo. Ni siquiera 7 días de la aparición de Deepseek, que Alibaba ya ha lanzado su modelo de inteligencia artificial más reciente, Qwen2.5-maxDiseñado para superar a sus mayores competidores: GPT-4O de OpenAI, llamadas-3.1-405B de acabado y, principalmente, a Deepseek-V3, que hasta ahora fue el mejor de todo.
La nueva herramienta ahora está disponible en Chat de qwenChatbot de la compañía, pero también puede acceder a él a través de la cara de abrazo, el repositorio en Github y Modescope, la plataforma de código abierto desarrollada por Nube de alibaba. Analizamos sus características principales Qwen2.5-max y las diferencias con Deepseek-V3.
¿Qué es qwen2.5-max?
Qwen2.5-max es un Modelo de lenguaje a gran escala (LLM) Desarrollado por Alibaba Cloud, también conocido como Aliyun -, la división de computación en la nube de Alibaba. Este modelo se basa en una arquitectura de Mezcla de expertos (MOE)Una técnica de aprendizaje automático que activa solo las partes necesarias para una tarea específica, optimizando el uso de recursos y mejorando la eficiencia.
Entrenado con más de 20 mil millones de tokens La alta calidad, QWEN2.5-Max se ha refinado a través de técnicas de ajuste supervisadas y el aprendizaje de refuerzo de la retroalimentación humana. Está diseñado para sobresalir en tareas como programación, razonamiento y conversación, apoyo Más de 29 idiomas y una longitud de contexto de Hasta 128,000 fichas.
Características principales de Qwen2.5-Max:
- Utiliza una arquitectura MOE que optimiza el uso de recursos al activar solo las partes necesarias del modelo, conocidas como «expertos», para cada tarea específica.
- Se ha presionado con más de 20 mil millones de tokens y ha mejorado a través de técnicas de ajuste supervisadas (SFT) y el aprendizaje de refuerzo de la retroalimentación humana (RLHF), lo que mejora su capacidad de comprensión y generación de lenguaje natural.
- Rendimiento superior en puntos de referencia: en evaluaciones como MMLU-Pro, LivecodeBench y Arena Hard, Qwen2.5-Max ha superado a modelos principales como Deepseek-V3 y GPT-4O, lo que demuestra su efectividad en las tareas de conocimiento general, programación y razonamiento complejo .
Comparación entre Qwen2.5-Max y Deepseek
Deepseek ha ganado recientemente su atención por sus modelos AI de alto rendimiento y de bajo costo. Sin embargo, Qwen2.5-Max supera a Deepseek-V3 en varias pruebas de referencia. Por ejemplo, en el punto de referencia de Arena que aborda las preferencias humanas, el modelo de Alibaba excede a Deepseek en casi 4 puntos.
En MMLU-PR, que evalúa el conocimiento a través de problemas de nivel universitario, QWEN2.5-Max también obtuvo una puntuación más alta. Incluso en evaluaciones como LivecodeBench y LiveBenchEsa medida de la codificación y las capacidades de rendimiento general, respectivamente, QWEN2.5-Max tuvo un mayor rendimiento, no solo desee profundo, sino para toda la competencia.
Aunque ambos modelos usan la arquitectura Moe, Qwen2.5-max ha refinado su implementación para lograr un mayor eficiencia y eficiencia en diversas tareas.

Incluso comparando qwen2.5-max con modelos anteriores de Alibaba, puede ver un superioridad En varios parámetros analizados, especialmente en tareas como Comprensión del lenguaje, las matemáticas y la programación.


Analizamos la tabla comparativa en detalle:
- MMLU (subestimación de lenguaje multitarea masivo): Evaluar la comprensión en múltiples disciplinas (ciencias, matemáticas, historia, etc.). Qwen2.5-Max (87.9) excede Deepseek-V3 (87.1), call3.1-405b (85.2) y Qwen2.5-72b (86.1), lo que indica una mayor capacidad en el conocimiento general.
- Mmlu-propos Es similar a MMLU, pero con preguntas más avanzadas y difíciles. QWEN2.5-Max (69.0) conduce, con Deepseek-V3 (64.4) y Call3.1-405b (61.6) retrasado. Esto sugiere que tiene una mejor capacidad en problemas más complejos.
- BBH (Big Bench Hard) Prueba preguntas de razonamiento difíciles. QWEN2.5-Max (89.3) es superior, destacando en razonamiento avanzado contra Depseek-V3 (87.5) y Call3.1-405b (85.9).
- C-Eval Es una evaluación centrada en el idioma chino. Qwen2.5-Max (92.2) supera claramente a sus competidores (Deepseek-V3 90.1, call3.1-405b 72.5), mostrando una ventaja en este idioma.
- Cmmlu Es una evaluación de conocimiento multicultural. Qwen2.5-Max (91.9) liderazgo, lo que indica una mayor precisión en cuestiones culturales y académicas.
- Humanal Es una evaluación de generación de código en Python. Qwen2.5-Max (73.2) está por encima de sus competidores, lo que indica una mejor habilidad de programación.
- MBPP (punto de referencia de programación múltiple)Evalúe la capacidad de resolver problemas de programación en múltiples pasos. Se impone qwen2.5-max (80.6), destacando en la lógica de codificación.
- Crux-I y Crux-O Son evidencia de razonamiento crítico y lógico. Qwen2.5-Max excede Deepseek en casi 10 puntos.
- GSM8K Es una evaluación de problemas matemáticos de la escuela primaria en inglés. Qwen2.5-Max (94.5) es el líder absoluto en esta categoría, que muestra la mejor capacidad en matemáticas.
- Matemáticas Indica una evaluación de problemas matemáticos avanzados. Qwen2.5-Max (68.5) supera a sus competidores, con Flame3.1-405b (53.8) en la última posición.
Diferencias con modelos de Alibaba anteriores
En comparación con las versiones anteriores, Qwen2.5-Max representa un avance notable en términos de capacidad y rendimiento. Mientras que los modelos anteriores del Serie Qwen Ya ofrecieron habilidades multilingües y especialización en áreas como la codificación y las matemáticas, QWEN2.5-Max expande estas capacidades y mejora su eficiencia gracias a la arquitectura de MOE. Además, su entrenamiento con una cantidad de datos significativamente mayor le permite manejar contextos más largos y realizar análisis más complejos.
Además de Qwen2.5-Max, Alibaba Cloud también ha presentado otro modelo, el Qwen2.5-vlUna evolución significativa de su predecesor QWEN2-VL, que está disponible en tamaños de 3, 7 y 72 mil millones de parámetros, incluidas las versiones base y ajustadas para las instrucciones.
Esta nueva variante incorpora potentes capacidades de análisis de documentos, lo que permite analizar archivos grandes en múltiples idiomas y reconocer elementos como tablas, gráficos, fórmulas químicas y puntajes musicales. Además, permite la generación de salidas estructuradas, transformando datos no organizados en formatos como JSON, y funciona como un agente visual autónomo, ejecutando tareas en dispositivos inteligentes.
Foto: Qwen.
Versión Completa Alibaba lanza Qwen2.5-Max para competir con DeepSeek






