Nemotron 3 Nano 4B: компактная гибридная модель для эффективного локального ИИ

Представляем Nemotron 3 Nano 4B — самый компактный представитель семейства Nemotron 3. Модель построена на гибридной архитектуре Mamba-Transformer (комбинации рекуррентных слоёв и механизма внимания). Она оптимизирована для эффективности и точности в определённых задачах, задавая новый стандарт для лёгких SLM (small language models — небольших языковых моделей). Модель доступна на всех платформах с GPU NVIDIA. Она хорошо следует инструкциям и работает с инструментами, потребляя минимум видеопамяти (VRAM).

При 4 млрд параметров модель компактна для запуска на edge-устройствах (периферийных устройствах для обработки данных локально) — NVIDIA Jetson (Jetson Thor / Jetson Orin Nano), а также на NVIDIA DGX Spark и RTX GPU. Это обеспечивает быстрый отклик, конфиденциальность данных и гибкое развёртывание при низких затратах на инференс (выполнение модели).

Nemotron 3 Nano 4B — первая модель, специально оптимизированная для on-device развёртывания (непосредственно на устройстве). Она создана для работы локальных диалоговых агентов на GeForce RTX, Jetson и Spark. Модель достигает SOTA-результатов (State-of-the-Art — лучших на текущий момент) по нескольким ключевым метрикам для продакшена на edge:

  • Следование инструкциям (IFBench, IFEval): SOTA в своём классе размеров
  • Игровой агент / интеллект (Orak): SOTA в своём классе размеров
  • Эффективность VRAM (пиковое потребление памяти): минимальный объём в классе при разных настройках ISL/OSL (длине входной и выходной последовательности — *1)
  • Латентность: минимальный TTFT (время до первого токена) в классе при высоких настройках ISL (*1)

(*1) Бенчмарки эффективности замерялись на RTX 4070 с использованием Llama.cpp и Q4_K_M-квантованных (сжатых до 4 бит) версий моделей.

Кроме того, модель хорошо работает с инструментами и редко генерирует неверные факты (галлюцинирует). Это делает её сильным кандидатом для edge-сценариев.

Nemotron 3 Nano 4B получена из Nemotron Nano 9B v2 с помощью фреймворка Nemotron Elastic. Прунинг (обрезка параметров) и дистилляция (перенос знаний от большой модели к маленькой) позволили сохранить сильные рассуждающие способности. Дополнительный пост-тренинг на данных Nemotron 3 Post-training научил модель решать задачи даже без явного chain-of-thought (пошагового рассуждения в тексте).

Как open-source модель, она позволяет экосистеме кастомизировать, файн-тюнить (дообучать) и оптимизировать её под конкретные предметные области.

accuracy_table_resized

Для бенчмарка Orak модели оценивались на тактических играх: Super Mario, Darkest Dungeon и Stardew Valley.

Пайплайн обучения Nemotron 3 Nano 4B

Screenshot 2026-03-16 at 12.47.17 PM

Сжатие 9B → 4B через Nemotron Elastic

Вместо обучения с нуля или раздельных этапов обрезки и дистилляции, Nemotron Elastic применяет структурированный прунинг под управлением router’а (специальной сети-маршрутизатора). Роутер обучается вместе с моделью. Он использует вспомогательную функцию потерь (auxiliary loss), которая учитывает размер целевой student-модели и функцию потерь дистилляции знаний. Это позволяет получить оптимальную student-модель за долю стоимости полного предобучения или классического сжатия.

Как роутер решает, что обрезать

Nemotron Elastic использует end-to-end (сквозное) обучаемый роутер. Он выполняет нейроархитектурный поиск (подбор оптимальной структуры) по нескольким осям сжатия параллельно с дистилляцией. Для Nano 4B фреймворк работал с одним ограничением — целевые 4 млрд параметров. Задача роутера — определить, какие оси обрезать и насколько, чтобы уложиться в бюджет.

Роутеру были доступны четыре оси прунинга:

  • Mamba heads — сокращение числа SSM-голов (блоков модели состояний)
  • Hidden dimension (размерность эмбеддинга) — сужение ширины векторных представлений модели
  • FFN channels — обрезка промежуточных нейронов в MLP-слоях (полносвязных слоях)
  • Depth (глубина) — удаление целых слоёв сети

Для каждой оси ширины роутер получал предварительные данные о важности компонента. Каналы, головы и нейроны сортировались по activation-based importance scores (оценкам важности на основе активаций). Для глубины использовалась нормализованная MSE-ранжировка (по среднеквадратичной ошибке). Каждый слой итеративно удалялся, и замерялось влияние на output logits (сырые выходные предсказания) полной модели. Так получался обоснованный порядок важности слоёв. Подробнее — в статье про Nemotron Elastic.

При целевом бюджете в 4B параметров роутер сошёлся к следующим решениям:

Ось Nemotron Nano 9B v2 (родитель) Nemotron 3 Nano 4B
Depth 56 слоёв (27 Mamba, 4 attention, 25 MLP) 42 слоя (21 Mamba, 4 attention, 17 MLP)
Mamba heads 128 96
FFN intermediate dim 15680 12544
Embedding dim 4480 3136

Двухэтапная дистилляция для восстановления точности

После определения архитектуры сжатая модель переобучается через knowledge distillation (дистилляцию знаний) от замороженной родительской модели на 9B. Процесс восстановления точности состоит из двух этапов:

  1. Этап 1 — Дистилляция с коротким контекстом (8K токенов): модель обучается на 63 млрд токенов с окном 8K. Датасет — примерно 70% пост-тренинг данных и 30% предобучения из рецепта Nano v2. Этап критичен для первоначального восстановления точности.
  2. Этап 2 — Расширение контекста (49K токенов): для восстановления производительности на задачах, требующих длинных цепочек рассуждений, контекст расширяется до 49K. На этом этапе модель обучается на 150 млрд токенов.

Supervised Fine-Tuning (контролируемая донастройка)

SFT проводился в два этапа на релевантных подмножествах коллекции Nemotron-Post-Training-v3 с использованием Megatron-LM. Первый этап — обучение на смеси reasoning (логических) и non-reasoning данных по предметным областям: математика, код, наука, чат, следование инструкциям, агентные задачи. Второй этап — масштабное обучение для закрепления безопасного поведения.

Multi-environment Reinforcement Learning (обучение с подкреплением в нескольких средах)

После SFT модель проходит трёхэтапный RL-пайплайн (обучение с подкреплением) на NeMo-RL. Фокус — на следование инструкциям и tool-calling (вызов внешних инструментов) / агентное поведение:

  1. Этап 1 — single-turn (одноходовые) данные по следованию инструкций
  2. Этап 2 — среды NeMo-Gym для single-turn и multi-turn следования инструкциям, а также для структурированных выходов (JSON, XML)
  3. Этап 3 — предварительная версия Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1 для multi-turn (многоходового) диалогового tool-calling

Во всех трёх этапах RLVR (обучении с подкреплением на проверяемых наградах) использовалось соотношение reasoning и non-reasoning данных 50/50. При этом прогрессивно увеличивался KL-штраф (штраф за отклонение ответов от базовой модели).

Повышение эффективности за счёт квантования

Для edge-устройств важно дополнительное сжатие модели через квантование (снижение точности чисел). Nemotron 3 Nano 4B выпущена в форматах FP8 и Q4_K_M GGUF.

FP8. Post-Training Quantization (PTQ — квантование после обучения) применялось через библиотеку ModelOpt. Для калибровки использовалась выборка из 1K примеров SFT-датасета. Она нужна для оценки статистик активаций (промежуточных значений) и минимизации потерь точности. Вместо полного квантования сети применялась селективная стратегия. Self-attention слои (4 из 42) и 4 Mamba-слоя перед ними оставались в BF16. Это дало оптимальный баланс между точностью и эффективностью. Веса, активации и KV-Cache (кэш ключей и значений для ускорения генерации) квантуются в FP8. Слои Conv1D внутри Mamba-слоёв остаются в BF16. FP8-версия показала 100% медианное восстановление точности по целевым бенчмаркам относительно BF16. Также она дала до 1.8× улучшения по латентности и throughput (пропускной способности) на DGX Spark и Jetson Thor.

Q4_K_M GGUF. Широко распространённая 4-битная схема, дающая отличный баланс эффективности и точности. Также достигла 100% медианного восстановления точности.

GGUF-версия хорошо подходит для развёртывания на Jetson. На Jetson Orin Nano 8GB чекпоинт Q4_K_M через Llama.cpp выдаёт 18 токенов/с. Это до 2× выше throughput, чем у Nemotron Nano 9B v2. Это подчёркивает эффективность модели для edge-инференса во встроенном ИИ и робототехнике.

Попробуйте сейчас

Nemotron 3 Nano 4B доступна через различные движки инференса: Transformers, vLLM, TRT-LLM и Llama.cpp — покрывая широкий спектр edge-сценариев.

Для начала скачайте чекпоинты в репозиториях Hugging Face. Примеры использования для каждого движка есть в Model Card:

Для Jetson пошаговые инструкции и готовые команды — на странице модели Jetson AI Lab.

Также рекомендуем посмотреть NVIDIA In-Game Inferencing (NVIGI) SDK для ускорения инференса при одновременном запуске модели и тяжёлых графических нагрузок.