GTC 2026: Groq 3 LPX и первое в истории Nvidia выделенное железо для инференса в платформе Vera Rubin

На GTC 2026 Nvidia существенно расширила платформу Vera Rubin, представленную на CES: компания добавила кастомные CPU-стойки, выделенные чипы для инференса, новую архитектуру хранения, ОС для инференса, альянсы по открытым моделям и ПО для защиты ИИ-агентов.

В январе на CES 2026 Nvidia представила платформу Vera Rubin. На GTC 2026 компания масштабировала эту архитектуру. Теперь платформа включает семь чипов и пять типов стоек. Все это объединено в то, что Nvidia называет Vera Rubin POD. Система состоит из 40 стоек, 1,2 квадриллиона транзисторов и почти 20 000 чипов Nvidia. В ее составе 1152 GPU Rubin, 60 экзафлопс вычислительной мощности и 10 петабайт в секунду пропускной способности scale-up (вертикального масштабирования внутри системы).

NVL72: центральный вычислительный двигатель POD

Стойка Vera Rubin NVL72 — базовый вычислительный модуль. Она интегрирует 72 GPU Rubin, 36 CPU Vera, сетевые карты ConnectX-9 SuperNIC (для сверхбыстрых соединений между GPU) и DPU BlueField-4 (процессоры для разгрузки сетевых и вычислительных задач). Все это размещено на 18 вычислительных лотках и 9 коммутаторных лотках NVLink. По словам Nvidia, одна 19-дюймовая стойка вмещает 1,3 млн отдельных компонентов и примерно 1300 чипов, весит около 1800 кг.

По сравнению с Blackwell, Nvidia заявляет до 4-кратного роста производительности в обучении и 10-кратного — в энергоэффективности инференса (вывода результатов модели) на ватт. NVLink шестого поколения обеспечивает пропускную способность 3,6 ТБ/с на один GPU и 260 ТБ/с по всей стойке. Основа коммутации — четыре модульных картриджа с медными кабелями. Всего используется 5000 кабелей общей длиной более трех километров.

Одно из главных улучшений, по словам CEO Дженсена Хуана, — в сборке. Вычислительные лотки полностью лишены кабелей, шлангов и вентиляторов. Вместо традиционной проводки используется PCB-мидплейн (специальная печатная плата для соединения компонентов). Это сокращает время сборки одного лотка почти с двух часов до пяти минут.

Rubin Ultra масштабируется до 576 и 1152 GPU

Над NVL72 Nvidia выстроила еще два уровня масштабирования. Vera Rubin Ultra NVL576 использует новую двухуровневую топологию all-to-all (каждый чип соединяется с каждым напрямую). Она объединяет восемь стоек NVL72 (по 72 GPU Rubin Ultra в каждой) в единый домен NVLink на 576 GPU. Для этого используются медные и прямые оптические соединения. Nvidia уже построила рабочий прототип Polyphe на базе более старой архитектуры GB200.

Дальше — стойка Kyber, удваивающая домен NVLink до 144 GPU на стойку. Вместо горизонтальных серверных лотков применяется вертикальная компоновка. Вычислительное железо с четырьмя GPU Rubin Ultra и двумя CPU Vera спереди, мидплейн посередине и коммутационная плата NVLink сзади. Безкабельная конструкция должна радикально сократить время установки. Восемь стоек Kyber формируют систему NVL1152 на 1152 GPU. Nvidia называет Kyber фундаментом для архитектуры следующего поколения — Feynman. Таким образом, Rubin Ultra предлагает три варианта вертикального масштабирования (scale-up): NVL72, NVL144 и NVL576.

Один чип Rubin Ultra выдает 100 петафлопс в формате FP4 (числа с пониженной точностью, оптимальные для ИИ-вычислений). GPU состоит из четырех вычислительных кристаллов (вместо двух). Площадь каждого кристалла — более 800 кв. мм. Чип работает в паре с 16 стеками памяти HBM4e (ультрабыстрой памяти, размещаемой рядом с GPU) общим объемом 1 ТБ. Полная система NVL144 Kyber достигает 15 экзафлопс в FP4.

Выделенные CPU-стойки закрывают слепое пятно агентного ИИ

Новая стойка Vera CPU вмещает 256 жидкостно-охлаждаемых процессоров Vera, 64 DPU BlueField-4, более 22 500 ядер и 400 ТБ памяти. Nvidia заявляет, что одна стойка поддерживает свыше 22 500 одновременных сред reinforcement learning (обучения ИИ методом проб и ошибок) или песочниц агентов. Логика проста. В годы тотального фокуса на GPU упустили тот факт, что агентный ИИ не работает исключительно на графических процессорах. Вызовы инструментов (tool calling — обращение ИИ к внешним функциям), SQL-запросы, компиляция и выполнение в песочницах по-прежнему требуют CPU.

Сам процессор Vera оснащен 88 кастомными ядрами Arm Olympus и памятью LPDDR5X с пропускной способностью до 1,2 ТБ/с. Также у него есть интерфейс NVLink C2C (прямое чип-чип соединение) для подключения к GPU Rubin, согласно анонсу CPU от Nvidia.

Groq 3 LPX: у Nvidia появился выделенный конвейер инференса

Одно из самых интересных объявлений — прямое следствие квазипоглощения Groq компанией Nvidia. С чипами Groq 3 LPX Nvidia впервые вводит в свою платформу выделенный конвейер инференса. Стойка содержит 32 вычислительных лотка. В каждом лотке по восемь LPU (языковых процессоров, специализированных на генерации текста). Они соединены прямыми чип-чип связями через тысячи пар медных линий. Несколько стоек LPX могут работать как единый инференс-движок.

LPU оптимизированы для генерации токенов с низким latency (задержкой) и меньшими операционными затратами. Подобное специализированное железо в последние годы вырастило несколько стартапов, включая Cerebras (которая заключила сделку с OpenAI). С Groq 3 LPX клиенты могут покупать сопоставимое оборудование напрямую у Nvidia. Это позволяет компании использовать свое платформенное преимущество.

В связке с NVL72 система якобы генерирует до 35 раз больше токенов и открывает 10-кратные возможности для монетизации моделей с триллионом параметров по сравнению с Blackwell. Поставка ожидается во второй половине года.

CMX-хранение, inference-ОС и сеть Spectrum 6 завершают стек

Новая платформа CMX на базе BlueField-4 STX выносит KV-кеш в выделенный слой хранения с высокой пропускной способностью. KV-кеш — это буфер, где языковая модель хранит промежуточные результаты вычислений из диалога. Это нужно, чтобы не пересчитывать их с нуля при каждом новом токене. Чем длиннее диалог или цепочка агента, тем больше памяти съедает этот кеш.

CMX трактует этот временный контекст инференса как переиспользуемый нативный ИИ-тип данных. Он доступен для совместного использования между отдельными шагами диалога, целыми сессиями и разными агентами. Nvidia заявляет о 5-кратном росте пропускной способности по токенам и 5-кратном улучшении энергоэффективности по сравнению с классическими подходами к хранению.

Поверх этого работает Dynamo 1.0 — open-source операционная система для инференса, распределяющая GPU и ресурсы памяти по кластеру. Nvidia интегрировала её в фреймворки LangChain, SGLang и vLLM. Dynamo уже поддерживается AWS, Azure, Google Cloud, Oracle, CoreWeave, Together AI, Nebius, Cursor, Perplexity и Pinterest.

Сетевые стойки Spectrum-6 SPX связывают весь POD в единый суперкомпьютер. Новый коммутатор Spectrum-6 выдает 102,4 Тбит/с по 512 линиям на 200 Гбит/с. Он использует co-packaged optics (оптические компоненты, интегрированные прямо в чип). Nvidia заменила классические плаггабельные трансиверы на кремниевую фотонику (передачу данных светом через кремниевые схемы). Это должно дать более высокую энергоэффективность и меньшую задержку.

Архитектура MGX управляет энергией от чипа до электросети

Архитектура стоек MGX третьего поколения формирует механический фундамент для всех пяти типов стоек. NVL- и ETL-стойки используют общую физическую инфраструктуру. В нее входят корпуса, лотки, картриджи с кабелями, манифолды (распределители жидкости для охлаждения) и шинопроводы. Все стойки рассчитаны на входную температуру охлаждающей жидкости 45°C и на 100% жидкостное охлаждение.

Новинка — так называемое Intelligent Power Smoothing. Конденсаторы с 6-кратным запасом энергии по сравнению с предыдущим поколением (400 джоулей на GPU) сглаживают пиковые нагрузки. Это снижает пикотребление тока до 25%. Технология Dynamic Max-Q позволяет дата-центрам динамически распределять мощность между стойками в зависимости от нагрузки. По словам Nvidia, это позволяет уместить на 30% больше GPU в те же рамки энергобюджета.

Nvidia передала дизайн GB200 NVL72 в проект Open Compute Project. Более 80 партнеров формируют экосистему производства и дистрибуции этих стоек.

Цифровые двойники позволяют планировать ИИ-фабрики до отгрузки железа

С референс-дизайном DSX и системой DSX Air Nvidia расширяет свое присутствие на этап планирования и эксплуатации целых дата-центров. DSX объединяет вычисления, сеть, хранение, питание и охлаждение в единый чертеж для ИИ-фабрик. DSX Air превращает этот чертеж в цифровой двойник — полную симуляцию среды еще до поставки какого-либо железа.

Компании вроде CoreWeave, Siam.AI и Hydra Host уже используют эти симуляции, чтобы сократить время до получения первого продакшен-токена.

Коалиция Nemotron и NemoClaw: открытые модели со встроенными ограничениями

На фронте моделей Nvidia учреждает коалицию Nemotron. Это альянс с Black Forest Labs, Cursor, LangChain, Mistral AI, Perplexity, Reflection AI, Sarvam и Thinking Machines Lab. Цель — совместная разработка открытых frontier-моделей (моделей самого высокого уровня, определяющих границу возможностей ИИ). Они должны быть доступны бесплатно, а не заперты за проприетарными интерфейсами. Nvidia предоставляет вычислительные мощности DGX Cloud, но не раскрывает их объем. Первая модель будет разработана совместно Mistral AI и Nvidia и станет базой для семейства Nemotron 4.

Официально речь об открытых моделях. На практике Nvidia плотнее привязывает разработчиков к своей инфраструктуре. Эта же логика работает в расширении семейств открытых моделей: Nvidia масштабирует Nemotron для агентных систем, расширяет портфель для робототехники и автономных авто (Cosmos и Isaac GR00T), а также выходит в биотех и поиск лекарств (BioNeMo, Proteina Complexa, nvQSP).

Чтобы эти модели безопасно работали в продакшен-агентах, Nvidia представила NemoClaw — собственный софт-стек. Хуан представил платформу в ключноте GTC, сравнив OpenClaw с прошлыми инфраструктурными стандартами: «OpenClaw дал нам, дал индустрии ровно то, что было нужно именно тогда. Как Linux дал индустрии то, что нужно именно тогда, как Kubernetes появился ровно вовремя, как HTML». По словам Хуана, сегодня у каждой компании должна быть стратегия OpenClaw.

NemoClaw — не клон OpenClaw от Nvidia. Это вариация OpenClaw с guardrails (механизмами ограничений, предотвращающими нежелательные действия ИИ). OpenClaw дает базовые блоки для ИИ-агентов: runtime (среду выполнения), память и переиспользуемые навыки. NemoClaw добавляет слой безопасности и приватности через Agent Toolkit и OpenShell от Nvidia. Он контролирует, какие действия может совершать агент и к каким данным получать доступ. NemoClaw разрабатывался совместно с создателем OpenClaw Петером Штайнбергером.

Сама Nvidia описывает NemoClaw как ранний альфа-релиз: «Будьте готовы к шероховатостям. Мы стремимся к production-ready (готовой для продакшена) оркестрации песочниц, но стартовая точка — просто поднять собственное окружение».

Партнерство с Adobe и космические модули расширяют влияние Nvidia

На GTC Nvidia также объявила о партнерстве с Adobe. По словам компании, Adobe планирует интегрировать Firefly, Firefly Foundry, Acrobat, Frame.io и новое облачное 3D-решение для маркетинга с CUDA X, NeMo, Cosmos, Agent Toolkit и Omniverse.

Кроме того, Nvidia представила вычислительные модули для космоса. Модуль Space-1 Vera Rubin в связке с IGX Thor и Jetson Orin предназначен для вывода ИИ-обработки на орбиту. В числе заказчиков значатся Aetherflux, Axiom Space, Kepler, Planet, Sophia Space и Starcloud. По заявлениям Nvidia, модуль Rubin обеспечивает до 25-кратного прироста ИИ-вычислений для космического инференса по сравнению с H100.

DLSS 5 обещает фотореалистичное освещение, но сталкивается с негативом геймеров

На GTC Nvidia объявила DLSS 5 — технологию нейрорендеринга. Выход запланирован на осень 2026 года для RTX 50-й серии. В отличие от предыдущих версий, здесь нет апскейлинга (увеличения разрешения) или генерации кадров. Это ИИ-слой освещения, призванный обогатить сцены фотореалистичным светом, тенями и поведением материалов. Nvidia называет это самым большим скачком в графике со времен трассировки лучей в реальном времени. Над технологией работали три года.

Согласно рецензии Digital Foundry, DLSS 5 использует только информацию о цвете и векторы движения (данные о направлении перемещения пикселей между кадрами) из движка игры. Нейросеть семантически распознает разные поверхности — кожу, волосы, воду, металл — и обрабатывает каждую по-своему. Геометрия, текстуры и материалы остаются нетронутыми. Digital Foundry тестировала технологию на Resident Evil Requiem, Hogwarts Legacy, Assassin’s Creed Shadows, Oblivion Remastered и Starfield. Результаты для окружения, материалов и листвы описаны как «потрясающие».

Есть нюанс: демо всё ещё работало на двух RTX 5090. Один GPU рендерил игру, второй был полностью занят DLSS 5. Nvidia утверждает, что финальная версия будет работать на одной видеокарте. Но компания признает, что предстоит серьезная работа по оптимизации и использованию VRAM (видеопамяти). Digital Foundry уже заметила визуальные артефакты и описывает текущее состояние как «снимок процесса».

Реакция геймерского сообщества оказалась существенно негативнее оценки Nvidia. Множество пользователей описывают измененные лица как дешевый ИИ-фильтр, уничтожающий художественный замысел разработчиков.

Digital Foundry сама признает открытым вопрос: действительно ли интерпретация фотореализма от Nvidia — это то, чего хотят геймеры и разработчики. Nvidia отмечает, что разработчики получат настройки кастомизации, а функция останется опциональной. По словам компании, фидбек от студий-участников позитивный.