JetBrains открыла Mellum2: open-source кодовая модель

В понедельник JetBrains открыла исходный код Mellum2. Это кодовая модель на 12 миллиардов параметров. Она заточена под инфраструктурный слой agentic AI-систем (систем, где ИИ действует автономно). Задачи включают маршрутизацию, retrieval-пайплайны (конвейеры поиска данных), работу sub-агентов (вспомогательных ИИ-агентов) и приватное on-premises развёртывание (на собственных серверах клиента). Всё это — территории, куда Anthropic Claude Code не имеет доступа.

Mellum2 — наследник Mellum. Предыдущая модель на 4 млрд параметров появилась в конце 2024 года как проприетарный инструмент автодополнения кода в IDE от JetBrains. Она стала open-source в апреле 2025-го. Но в отличие от предшественника, Mellum2 открыта с первого дня.

При этом радиус применения Mellum2 существенно расширился. Mellum умела одно — дополнение кода. Mellum2 заточена под более широкий набор задач, которые определяют, как инженерные команды внедряют AI. Это координация между моделями, обработка нагрузок sub-агентов, сжатие контекста в retrieval-пайплайнах и запуск инференса (генерации ответов) на инфраструктуре, которую контролируют сами команды.

Mellum2 создана для более широкого набора задач, которые сегодня определяют подходы инженерных команд к внедрению AI.

В посте от ведущего инженера-исследователя Никиты Павличенко и продакт-менеджера Антона Семёнкина JetBrains описывает Mellum2 как «focal model» (фокальную модель). Это быстрая и специализированная модель, а не конкурент флагманским frontier-моделям по широте покрытия.

«Frontier-модели продолжат сдвигать границы, но практические AI-продукты также требуют focal models — быстрых специализированных компонентов, которые эффективно обрабатывают высокочастотные задачи», — пишут авторы. «Эта специализация позволяет модели отлично работать в средах software engineering, оставаясь лёгкой и быстрой».

Вместе с базовой моделью выпущены два дообученных (post-trained) варианта. Первый — «instruct» — отвечает напрямую. Второй — «thinking» — перед ответом генерирует явную цепочку рассуждений (trace). Он рассчитан на более сложные многошаговые задачи и работу в составе agentic-систем.

Скорость при масштабировании

Mellum2 построена на архитектуре Mixture-of-Experts (MoE — «смесь экспертов»). В модели 12 млрд параметров, но только 2.5 млрд активны на каждый токен (элемент текста). Архитектура пропускает каждый токен через подмножество из 64 экспертов модели, а не через всю сеть. Это сохраняет высокую скорость инференса без ущерба для общей ёмкости модели.

В техническом отчёте JetBrains сравнила Mellum2 с моделями Qwen2.5-7B и Qwen3-8B от Alibaba. Тесты проходили на одном GPU H100 с использованием размеров ввода и вывода, характерных для реальных production-нагрузок на автодополнение кода.

При одиночных запросах (single-request) Mellum2 практически не уступает Qwen2.5-7B — 192 токена в секунду против 193. При параллельной нагрузке (concurrent), где работают реальные production-развертывания, Mellum2 обходит Qwen2.5-7B на 21%, а Qwen3-8B — на 79%.

Экономика затрат следует той же логике. При 2.5 млрд активных параметров на токен архитектура ведёт себя скорее как 2.5B-модель, чем как классическая плотная 12B-модель (где все параметры вычисляются всегда). Это критично для команд, которые маршрутизируют через неё большие объёмы запросов ежедневно в рамках более крупной agentic-системы.

На генерации кода на уровне функций, замеренной бенчмарком EvalPlus (комбинация HumanEval+ и MBPP+), вариант «thinking» набирает 78.4%. Это больше, чем у всех остальных моделей в таблице сравнения, включая Qwen3.5-9B (71.8%) и специализированную Seed-Coder-8B (73.8%).

Картина становится более смешанной, когда оценка выходит за рамки software engineering. Результаты JetBrains показывают, что Qwen3.5-9B сохраняет преимущество в более широких тестах на рассуждения и знания — GPQA Diamond и MMLU-Redux.

JetBrains признаёт это напрямую в техническом отчёте, отмечая, что более узкий фокус обучения имеет свою цену.

«Этот разрыв отражает сознательный компромисс (tradeoff) в нашем обучающем миксе в пользу кода и документации для разработчиков, а не широкого энциклопедического покрытия», — пишут авторы.

Аргумент независимости

Более острый кейс в пользу Mellum2 заключается в том, чего она не требует. Anthropic Claude Code и OpenAI Codex работают локально на клиенте. Но инференс маршрутизируется через API Anthropic и OpenAI соответственно.

Cursor тоже экспериментирует с собственной проприетарной стратегией кодовых моделей, недавно представив Composer 2.5. Эти возможности по-прежнему привязаны к платформе Cursor. А недавнее партнёрство с xAI от SpaceX выносит ещё один критический уровень стека — инфраструктуру и будущую разработку моделей — из-под контроля клиентов.

Mellum2 поступает в открытый доступ с открытыми весами (параметрами модели) под лицензией Apache 2.0. Это даёт предприятиям возможность владеть и управлять этим слоем самостоятельно. Займёт ли этот аргумент позицию на enterprise-уровне — зависит от аппетита компаний к self-hosted AI-инфраструктуре (разворачиванию ИИ на своих серверах).

JetBrains ставит на то, что гибкость развёртывания, операционный контроль и право собственности останутся важными факторами. Это актуально по мере того, как AI всё глубже встраивается в рабочие процессы (workflows) software engineering. Разумная ставка — но её ещё предстоит подтвердить в масштабе.

Mellum2 уже доступна на Hugging Face. Базовая модель, а также instruct- и thinking-чекпоинты (сохранения весов модели) выпущены под Apache 2.0. Вместе с ними опубликован полный технический отчёт, описывающий архитектурные решения и пайплайн обучения.