
Qwen3-Max Thinking supera Gemini 3 Pro y GPT-5.2 en exámenes de razonamiento
TL;DR
El nuevo modelo de razonamiento Qwen3-Max Thinking, desarrollado por Alibaba Cloud, promete igualar e incluso superar las capacidades de la inteligencia artificial de sus competidores Gemini 3 Pro y GPT-5.2.
Qwen3-Max Thinking se destaca en el mercado de IA
El nuevo modelo de razonamiento Qwen3-Max Thinking, desarrollado por Alibaba Cloud, promete igualar e incluso superar las capacidades de la inteligencia artificial de sus competidores Gemini 3 Pro y GPT-5.2. La presentación ocurrió en un momento estratégico, en que la empresa busca innovar en el campo de los modelos de lenguaje, con una propuesta accesible y eficiente.
Este modelo fue introducido por el Qwen Team, reconocido por entregar modelos de código abierto robustos. Alibaba Cloud recibió elogios, incluso del CEO de Airbnb, Brian Chesky, quien elogió sus soluciones como alternativas económicas a los modelos estadounidenses.
La innovación del Qwen3-Max Thinking reside en su arquitectura, que combina eficiencia con autonomía, reescribiendo las reglas del razonamiento lógico tradicional.
Arquitectura: Redefiniendo la Escala de Prueba
La principal innovación del Qwen3-Max Thinking es la técnica llamada Test-time scaling. A diferencia de los modelos que generan respuestas de manera lineal, este enfoque permite al modelo intercambiar poder computacional por inteligencia, adoptando una estrategia de múltiples iteraciones.
A través de un mecanismo exclusivo de «take-experience», el modelo refina sus conocimientos a partir de experiencias anteriores, permitiendo:
- Identificar Dead Ends: Reconocer fallas en el razonamiento sin recorrer completamente el camino.
- Focar Compute: Dirigir el poder de procesamiento hacia incertidumbres no resueltas.
Estas mejoras resultaron en saltos significativos de rendimiento, como se demostró en benchmarks de ciencia de nivel PhD.
Integración con Herramientas Adaptativas
El Qwen3-Max Thinking se distingue por la integración de herramientas adaptativas que permiten al modelo elegir de forma autónoma la herramienta correcta para cada tarea, combinando pensamiento lógico y funciones prácticas.
Las capacidades incluyen:
- Búsqueda y Extracción en la Web: Para consultas fácticas en tiempo real.
- Memoria: Almacenar y recordar contextos específicos del usuario.
- Intérprete de Código: Escribir y ejecutar fragmentos de Python.
Análisis de Benchmark: Hechos y Resultados
El rendimiento del Qwen3-Max Thinking en benchmarks rigurosos, como el HMMT, presentó una puntuación de 98.0, superando al Gemini 3 Pro y otros competidores.
Además, en la evaluación "Humanity's Last Exam", que abarca cuestiones complejas de diferentes disciplinas, el modelo alcanzó 49.8 puntos, superando al Gemini 3 Pro y al GPT-5.2.
El Costo del Razonamiento: Análisis de Precios
Alibaba Cloud posicionó el qwen3-max-2026-01-23 como una opción premium, pero accesible, con un precio de $1.20 por 1 millón de tokens de entrada.
Comparado a modelos tradicionales, este costo es competitivo, ofreciendo un rendimiento de punta por un precio reducido.
Ecossistema de Desarrolladores
El Qwen3-Max Thinking está diseñado para una integración fácil, con compatibilidad con formatos de OpenAI y Anthropic, permitiendo que los desarrolladores integren fácilmente este nuevo modelo en sus aplicaciones.
Consideraciones Finales
El lanzamiento del Qwen3-Max Thinking señala una evolución en el mercado de IA, enfocándose más en las habilidades de razonamiento y uso autónomo de herramientas que en simples chatbots inteligentes. Con un modelo de precios competitivo, Alibaba Cloud se establece como un competidor serio.
La oferta de herramientas gratuitas por tiempo limitado incentiva a los desarrolladores a explorar las nuevas capacidades, intensificando aún más la disputa en el espacio de IA.
Contenido seleccionado y editado con asistencia de IA. Fuentes originales referenciadas arriba.


