Nvidia lanza Nemotron 3 Nano, un modelo de lenguaje avanzado con arquitectura innovadora y alta eficiencia para procesamiento de textos extensos
Nvidia presenta un innovador modelo de lenguaje que rompe con la arquitectura tradicional, ofreciendo mayor velocidad y capacidades sorprendentes para analizar textos largos.
En vísperas de Navidad, la comunidad de modelos de lenguaje (LLM) recibió una sorpresa inesperada: Nvidia lanzó un nuevo modelo denominado Nvidia-Nemotron-3-Nano-30B-A3B, marcando un hito en el desarrollo de inteligencia artificial. Este lanzamiento, divulgado inicialmente por un descuido en un repositorio de Hugging Face, revela un conjunto de innovaciones que merecen un análisis detallado, ya que representa el primer modelo de una serie basada en una arquitectura completamente renovada.
Nvidia ha desarrollado este modelo desde cero, diseñando una arquitectura innovadora que combina capas Mixture-of-Experts (MoE) con las nuevas capas Mamba, eliminando la arquitectura Transformer tradicional. Esta estrategia permite una velocidad significativamente mayor y un menor consumo de memoria, logrando que el modelo procese hasta un millón de tokens—una capacidad que supera ampliamente a modelos anteriores y resulta especialmente útil para analizar documentos extremadamente extensos.
A pesar de su denominación «Nano», el Nemotron 3 cuenta con 31.600 millones de parámetros distribuidos en 52 capas, con 32 cabezas de atención y una dimensión de modelo de 2.688. Este diseño favorece una ejecución rápida, alcanzando aproximadamente 80 tokens por segundo en hardware Apple M2 Ultra, y cuenta con una capacidad de procesamiento que Nvidia estima en un factor 3,3 respecto a modelos similares. La eficiencia se refuerza con las capas mamba, que facilitan un cálculo más sencillo y reducen la carga en la memoria durante la generación.
En cuanto a la capacitación, Nvidia utilizó un volumen de 10 billones (10 trillones) de tokens con datos públicos y compartidos, incluyendo información hasta junio de 2025. Además, alojan estos conjuntos de datos en plataformas abiertas como Hugging Face, reforzando la transparencia y permitiendo su utilización para investigaciones y desarrollos comerciales bajo una licencia abierta. La presencia de datos provenientes del futuro (como con fechas en diciembre de 2025) parece un error, pero en todo caso, los datos disponibles cubren un amplio rango temporal hasta junio de 2025, con un conocimiento del mundo fechado en junio de 2024.
El modelo está preparado para funcionar en múltiples frameworks, como vLLM, SGLang y llama.cpp, sin necesidad de una GPU, lo que permite ejecutarlo incluso en hardware modesto. Esto, junto con la facilidad para controlar funciones como el razonamiento y la generación de tokens, facilita su integración en una variedad de aplicaciones, incluyendo agentes complejos que requieren un control preciso de sus recursos.
En la fase de preentrenamiento, Nvidia utilizó un proceso en dos etapas, empleando 25 billones de tokens distribuidos en diferentes categorías y con atención especial a la calidad de los datos. La capacitación incluyó textos sencillos y de alta calidad, abarcando múltiples idiomas, desde árabe y chino hasta español y tailandés. Además, se implementaron diferentes técnicas para extender el contexto, alcanzando capacidades de hasta 512.000 tokens con mecanismos como el RoPE, que normalmente no se utilizan junto con las capas Mamba.
Para el postentrenamiento, Nvidia ha adoptado una estrategia en tres fases: ajuste supervisado (SFT), aprendizaje por refuerzo con recompensas verificables (RLVR) y retroalimentación humana mediante técnicas de reinforcement learning con modelos como GenRM, basados en Qwen3-235B. Este enfoque permite un control preciso sobre el razonamiento, la seguridad y la calidad de las respuestas, además de reducir costes mediante evaluaciones automatizadas en lugar de depender únicamente de la retroalimentación humana.
El modelo Nemotron 3 Nano ha sido optimizado para ejecutarse en hardware modesto, alcanzando velocidades de aproximadamente 80 tokens por segundo en un Mac Studio con chip M2 Ultra. Nvidia planea lanzar futuras versiones más grandes, como LatentMoE, diseñadas específicamente para hardware Nvidia de última generación, con mayor capacidad de generación en múltiples tokens y mejoras en la coherencia de textos largos.
La disponibilidad del modelo en código abierto, junto con los datos de entrenamiento y herramientas de evaluación, convierte a Nvidia en uno de los principales actores en la democratización de la inteligencia artificial avanzada. Esto permite una mayor transparencia en la comparación con otros modelos existentes, fomentando un ecosistema más competitivo y abierto. La compañía ya ha puesto a disposición el framework de evaluación abierto, incentivando a otros desarrolladores a seguir su ejemplo y contribuir a la validación de la calidad y eficiencia de estos potentes modelos. La llegada de Nemotron 3 Nano marca, sin duda, un paso decisivo en la evolución de los modelos de lenguaje, acercándonos a una IA más rápida, eficiente y accesible para todos.