Qwen3-Next, el nuevo modelo de lenguaje que optimiza recursos y aumenta la velocidad de procesamiento

TecnologíaInteligencia artificial

Qwen3-Next, el nuevo modelo de lenguaje que optimiza recursos y aumenta la velocidad de procesamiento

Qwen3-Next innova en eficiencia y velocidad mediante arquitectura híbrida y mejoras en entrenamiento, marcando un nuevo rumbo en procesamiento de lenguaje.

Descripción

El 10 de septiembre de 2025 se anunció la llegada de un nuevo modelo de lenguaje llamado Qwen3-Next que, a pesar de contar con 80.000 millones de parámetros, presenta innovaciones técnicas que podrían marcar un rumbo en la evolución de los modelos de procesamiento de lenguaje natural.

Una de las principales innovaciones es su mecanismo de atención híbrida, que combina en un 75% de sus capas una atención lineal (Gated DeltaNet) que requiere menos memoria y tiempo de cálculo, con el resto que mantiene la atención estándar. Esta arquitectura híbrida permite obtener mejores resultados que si se utilizara un solo mecanismo en todas las capas, además de reducir el carácter exclusivo de los transformers tradicionales.

Además, presenta una estructura de mezcla de expertos (MoE) con 512 expertos, de los cuales siempre se activan diez simultáneamente, reduciendo así la cantidad de parámetros necesarios en cada predicción a solo 3.000 millones, un avance significativo en eficiencia. Esta estructura permite que, en total, del enorme conjunto de 80.000 millones de parámetros, solo se utilicen alrededor de 37.000 millones en cada predicción, optimizando notablemente el consumo de recursos.

En cuanto a la optimización del entrenamiento, Qwen3-Next ha incorporado múltiples técnicas como RMS-Norm en lugar de la más común QK-Norm y un procedimiento que garantiza un entrenamiento imparcial para todos los expertos MoE. Estas mejoras contribuyen a reducir el esfuerzo de entrenamiento en comparación con modelos anteriores, logrando una reducción del 20% en el esfuerzo necesario y permitiendo entrenar el modelo con menos de la mitad del tiempo y recursos que modelos similares.

Otra innovación importante es la capacidad de realizar predicciones múltiples —una técnica conocida como speculative decoding— que posibilita que el modelo no solo prediga un token sino varios en una sola pasada, incrementando sustancialmente su velocidad en tareas con largos contextos. Esto, sumado a las optimizaciones en entrenamiento e inferencia, hace que Qwen3-Next sea notablemente más rápido en su funcionamiento.

Sin embargo, el modelo presenta ciertos desafíos, ya que su arquitectura ha dificultado su compatibilidad con herramientas populares como llama.cpp. No obstante, funciona de manera confiable con bibliotecas como Transformers y vLLM, especialmente si se emplea la cuantización para reducir su tamaño operativo. En plataformas como runpod.io es posible probarlo usando GPU con al menos 96 giga de memoria, logrando velocidades de hasta 150 tokens por segundo en configuraciones optimizadas.

En términos de capacidades, Qwen3-Next ofrece un rendimiento en tareas de razonamiento y respuesta política muy restringido, probablemente por políticas internas de seguridad y control de contenido. Sin embargo, en tareas de respuesta más directas y en pruebas específicas ha mostrado una cierta precisión, como al responder correctamente a preguntas en alemán o en pruebas de competencia en otros idiomas.

En resumen, Qwen3-Next representa un avance significativo en la eficiencia y velocidad de los modelos de lenguaje a gran escala, combinando innovaciones en mecanismos de atención, estructura de expertos y optimizaciones en entrenamiento e inferencia, lo que podría influir considerablemente en cómo se desarrollan y aplican estos modelos en diferentes contextos comerciales y de investigación.