MiniMax 2.7: SOTA среди открытых моделей за треть цены GLM-5

Прошло меньше двух месяцев с IPO MiniMax и публикации первых финансовых результатов. Компания снова в заголовках — на этот раз с MiniMax 2.7. Яркая новость на фоне перетасовки в линейке Qwen. По качеству модель догоняет GLM-5 от Z.ai — прошломесячного SOTA (лучшего результата) среди открытых весов (публично доступных параметров модели). Но главная история здесь об эффективности (зелёный квадрант на графике Artificial Analysis):

График Artificial Analysis

Команда называет это «ранними признаками самоэволюции» — «наша первая модель, глубоко участвующая в собственной эволюции». Это отсылает к Autoresearch Карпати. Сами разработчики ограничиваются заявлением, что «M2.7 способна обработать 30–50% рабочего процесса»:

Image

Кроме того, MiniMax сообщает о работе над мультиагентным сотрудничеством («Agent Teams»). Компания следует за Anthropic и OpenAI в применении моделей к финансовым задачам. А также запускает OpenRoom — open-source демо для развлекательных сценариев.

MiniMax M2.7, Xiaomi MiMo-V2-Pro и растущий класс «самоэволюционирующих» моделей

  • MiniMax M2.7 — главная релизная новость. Компания позиционирует M2.7 как первую модель, «глубоко участвовавшую в собственной эволюции». Заявленные метрики: 56,22% на SWE-Pro, 57,0% на Terminal Bench 2, 97% следования навыкам по 40+ навыкам, паритет с Sonnet 4.6 на OpenClaw. Последующий тред уточняет, что внутренний harness (окружение исполнения: набор скриптов, eval-наборов и петель обратной связи вокруг модели) рекурсивно улучшал себя. Он собирал фидбек, строил eval-наборы, итерировал по навыкам/MCP, памяти и архитектуре (тред). MCP здесь — Model Context Protocol, стандарт подключения внешних инструментов к LLM. Третьи стороны подхватили нарратив о «самоэволюции», включая TestingCatalog и kimmonismus.

  • Artificial Analysis ставит M2.7 на границу «цена/качество». По данным Artificial Analysis, модель набирает 50 в Intelligence Index — на уровне GLM-5 (Reasoning). Цена — $0,30/$1,20 за 1M входных/выходных токенов. Полный прогон индекса стоит $176 — меньше трети от стоимости GLM-5. Также фиксируется GDPval-AA Elo 1494, что выше MiMo-V2-Pro (1426), GLM-5 (1406) и Kimi K2.5 (1283). Отмечается значительное снижение галлюцинаций по сравнению с M2.5. Модель быстро появилась в Ollama cloud, Trae, Yupp, OpenRouter, Vercel, Zo, opencode и kilocode.

  • Xiaomi MiMo-V2-Pro — серьёзная китайская reasoning-модель только по API. Artificial Analysis даёт ей 49 в Intelligence Index, контекст 1M токенов, цену $1/$3 за 1M токенов, GDPval-AA Elo 1426. Отмечается лучшая токен-эффективность по сравнению с конкурентами. Также зафиксирован относительно высокий AA-Omniscience (+5) за счёт низких галлюцинаций. Это следует за открытой MiMo-V2-Flash (309B параметров всего / 15B активных, лицензия MIT) — архитектурой MoE, где на каждый токен активна лишь часть параметров. V2-Pro пока доступна только по API.

  • Mamba-3 вышла и сразу обсуждается через призму гибридных архитектур. Cartesia представила Mamba-3 как SSM (State Space Model — архитектуру нейросети, альтернативную трансформерам). Модель оптимизирована для inference-нагруженных сценариев. Тестирование доступно от самой Cartesia (ссылка от Albert Gu). Ранние технические реакции сфокусировались не на standalone SSM, а на встраивании Mamba-3 в трансформерные гибриды. rasbt прямо предложил заменять Gated DeltaNet в гибридах следующего поколения вроде Qwen3.5 / Kimi Linear. JG_Barthelemy отметил гибридную интеграцию и «разблокировку Muon для SSM» (Muon — оптимизатор для обучения нейросетей).

Harness-инжиниринг, навыки, MCP и переход от «промптинга» к системному дизайну

  • Самый устойчивый тренд — harness engineering как реальный дифференциатор. Несколько постов утверждают, что узкое место больше не в базовой модели, а в среде исполнения вокруг неё. Интервью The Turing Post с Michael Bolin описывает кодирующих агентов как задачу инструментов, читаемости репозитория, ограничений и петель обратной связи — то, что многие теперь называют harness engineering. dbreunig делает похожий вывод о причинах, по которым команды остаются с DSPy. nickbaummann_ аргументирует, что GPT-5.4 mini важна именно потому, что дешёвые быстрые субагенты меняют то, что имеет смысл делегировать.

  • Навыки (Skills) закрепляются как общая абстракция в агентских стеках. Практический тред от mstockton описывает реальные паттерны использования SKILLS: прогрессивное раскрытие, инспекция трейсов (логов выполнения агента), дистилляция сессий, навыки с триггерами из CI и самоулучшающиеся навыки. RhysSullivan предлагает распространять навыки через MCP-ресурсы для решения проблем устаревания и версионирования. Аккаунт Claude Code от Anthropic уточняет, что навык — не просто текстовый сниппет, а папка со скриптами, ассетами и данными. Ключевое поле описания должно указывать, когда его активировать (твит).

  • Открытые агентские стеки сходятся к формуле: модель + runtime + harness. Harrison Chase опубликовал разбор, где Claude Code, OpenClaw, Manus и прочие представляют одну и ту же декомпозицию: открытая модель + runtime + harness. Примеры — Nemotron 3, OpenShell от NVIDIA и DeepAgents. Связанные релизы инфраструктуры: LangSmith Sandboxes для безопасного исполнения кода, LangSmith Polly GA как внутрипродуктовый ассистент отладки и улучшения, а также новый гайд LangChain по production observability для агентов.

  • MCP набирает обороты, но появляется отторжение. Полезные релизы: open-source MCP-сервер от Google Colab, позволяющий локальным агентам управлять GPU-рантаймами Colab. Также — обновление Gemini API с поддержкой встроенных инструментов и кастомных функций в одном вызове. Параллельно виден скепсис. skirano прямо заявил: «MCP была ошибкой. Да здравствуют CLI». denisyarats иронизировал о «model cli protocol».

  • Параллельный тренд: агенто-нативные enterprise-приложения и «headless SaaS». ivanburazin описывает формирующуюся категорию headless SaaS (SaaS-продуктов без веб-интерфейса, доступных только через API). Это традиционный софт, перестроенный как агент-first API без человеческого UI. Тренд согласуется с релизами вроде AI-аналитика от Rippling и вебинаром Anthropic о Claude для Excel/PowerPoint. Также — с тезисом о том, что приложения для заметок с встреч становятся полноценными AI context/data-приложениями (zachtratar).

Инфраструктура, ядра и ко-дизайн «модель — система»

  • Attention Residual стал кейсом ко-дизайна инфраструктуры и модели. Несколько постов разобрали работу AttnRes от Kimi/Moonshot не просто как экзотическую архитектуру. Речь идёт о модификации механизма внимания, где остаточные связи вынесены за пределы стандартного слоя. bigeagle_xd акцентировал ко-дизайн исследований модели и инфраструктуры. ZhihuFrontier объяснил, почему полный attention residual нагружает pipeline parallelism (способ распределения вычислений модели между GPU). Причина — асимметричные паттерны коммуникации и памяти. Block Attention Residual плюс cross-stage caching восстанавливают симметрию. YyWangCS17122 усилил тезис: оптимизация GPU-ядер (программ для GPU), алгоритмически-системный ко-дизайн и числовая строгость — путь к production-ready большим моделям.

  • Упаковка кастомных ядер упрощается. ariG23498 отметил новую библиотеку kernels от Hugging Face. Она призвана сделать кастомные GPU-ядра более распространяемыми и простыми в интеграции через Hub. Цель — снизить боль от написания и дистрибуции fused-ядер (нескольких операций, объединённых в одну для ускорения) без необходимости каждой команде вручную реализовывать логику установки.

  • Оптимизация inference остаётся темой первого порядка. Тот же тред о ядрах повторяет знакомый стек оптимизаций. Нужно закрывать idle-провалы между запусками ядер, фьюзить (объединять) операции через torch.compile и падать на кастомные ядра только там, где это необходимо. На аппаратной стороне Stas Bekman заметил, что заявленная пропускная способность NVLink может вводить в заблуждение. Она не дуплексная в том смысле, в каком многие предполагают — не работает одновременно в обоих направлениях с полной скоростью.

  • Вычислительные узкие места остаются upstream всего остального. kimmonismus утверждает, что EUV-станки ASML (оборудование для экстремальной ультрафиолетовой литографии — ключевой технологии производства чипов) и их узкие цепочки поставок могут ограничить производство примерно 100 станками в год к 2030 году. Это делает литографию важным потолком для AI-масштабирования в текущем десятилетии.

Документы, OCR, поиск и context engineering для реальных рабочих процессов

  • Document AI движется к end-to-end мультимодальным парсерам с grounding. Baidu представила Qianfan-OCR4B end-to-end модель для документного интеллекта. Она схлопывает извлечение таблиц, распознавание формул, понимание графиков и KIE (Key Information Extraction — извлечение структурированной информации) в один проход. Vik Paruchuri выпустил open-source Chandra OCR 2 с заявленными 85,9% на olmOCR bench, поддержкой 90+ языков и улучшенной работой с layout, рукописным текстом, математикой, формами и таблицами при размере 4B. На стороне платформ LlamaIndex и jerryjliu0 подчёркивают, что production документные агенты нуждаются не только в конвертации в Markdown. Им необходимы определение layout, сегментация, метаданные-контекст и визуальный grounding (привязка извлечённых данных к позициям в исходном документе) для поддержки человекочитаемых документных процессов.

  • Late-interaction retrieval продолжает давить на баланс память/качество. Late-interaction retrieval — метод поиска, при котором сравнение запроса и документа происходит на уровне отдельных токенов, а не целых векторов. victorialslocum резюмирует MUVERA — подход, сжимающий multi-vector retrieval в фиксированно-мерные кодировки. Результат — примерно 70% сокращения памяти и значительно меньшие HNSW-графы (иерархические структуры для поиска ближайших соседей). Цена — некоторое падение recall и throughput запросов. lateinteraction использовал тред, чтобы напомнить об ограничениях single-vector retrieval на сложных OOD-данных (данных, отличающихся от обучающей выборки).

  • Context engineering становится продуктовой категорией. llama_index прямо называет context engineering преемником prompt engineering. Структурированный парсинг и экстракция — ключевой рычаг. Это дополняется поддержкой Hugging Face для отдачи Markdown-представлений статей агентам и навыком Paper Pages для более токен-эффективного поиска и чтения статей (Niels Rogge, mishig25).

Evals, методология обучения и бенчмарки, за которыми стоит следить

  • Воспроизводимость LLM-as-judge снова под огнём. LLM-as-judge — подход, при котором одна LLM оценивает ответы другой. a1zhang показал, что модель набирает 10% при оценке через GPT-5.2-as-judge против 43,5% через GPT-5.1-as-judge. При этом в статье заявлено 34%. Наглядное напоминание, что выбор судьи может перевесить выводы. torchcompiled сформулировал вывод: не используйте LLM-as-judge без валидации корреляции с человеком или настройки под неё.

  • Состав данных для предобучения снова становится ключевым рычагом. rosinality обратил внимание на работу, показывающую, что микс SFT-данных во время предобучения может превзойти стандартный пайплайн «предобучение → файнтюн». Работа демонстрирует scaling law для соотношения при фиксированном бюджете токенов. Родственные посты от arimorcos, pratyushmaini и Christina Baek утверждают, что domain adaptation чаще выигрывает от более раннего смешивания данных. Также — от повторения маленьких качественных датасетов 10–50x во время предобучения, а не от наивного файнтюна.

  • Бенчмарки сдвигаются к «нерешённому и полезному». Ofir Press указывает на будущее, где улучшение на бенчмарке означает решение ранее нерешённых задач, имеющих значение в реальном мире. А не заучивание экзаменообразных датасетов. Он также отмечает, что AssistantBench остаётся нерешённым 1,5 года. Новые бенчмарки и инструменты: ScreenSpot-Pro на Hugging Face для GUI-агентов и академические партнёрства Arena, финансирующие eval-исследования.

Топ-твиты (по вовлечённости, отфильтрованные по технической релевантности)

  • Parameter Golf от OpenAI: OpenAI запустила Parameter Golf — тренировочный челлендж. Задача — уместить лучшую LM в артефакт 16MB, обучив за менее 10 минут на 8×H100. В призовом фонде $1M вычислительных ресурсов. Хорошая энергия для привлечения талантов и красивое дополнение к культуре NanoGPT speedrun (детали от scaling01).

  • Исследование Anthropic на 81k пользователей: Anthropic сообщает, что с помощью Claude за одну неделю опросила 80 508 человек о надеждах и страхах вокруг AI. Компания называет это крупнейшим качественным исследованием такого рода. Интересно и как социальное измерение, и как сигнал, что опосредованное моделью интервьюирование может стать постоянным продуктом и исследовательским инструментом.

  • Превью real-time генерации видео от Runway: Runway показала исследовательское превью, разработанное с NVIDIA. Это HD-генерация видео с time-to-first-frame менее 100 мс на аппаратуре Vera Rubin (твит). Если это масштабируется, речь о качественно другом интерактивном цикле для видео-моделей.

  • Hugging Face об интерфейсах исследования для агентов: Платформенное изменение для отдачи Markdown-представлений статей агентам и сопутствующий навык для работы с papers. Небольшая, но важная инфраструктурная деталь для агентных research-воркфлоу.

  • Интегрированная отладка браузера в VS Code: Последний релиз VS Code от Microsoft добавляет интегрированную браузерную отладку для end-to-end веб-воркфлоу. Полезно само по себе и, вероятно, станет ещё важнее, когда кодирующие агенты начнут работать с live-состоянием браузера.

Что говорят в сообществах

  • Анонс MiniMax-M2.7 (Активность: 947): На изображении — сравнительный анализ M2.7 с Gemini 3.1 Pro, Sonnet 4.6, Opus 4.6 и GPT 5.4 по SWE Bench Pro, VIBE-Pro и MM-ClawBench. Подчёркиваются возможности автономной итерации модели: автономный анализ путей отказа, планирование изменений, модификация кода и оценка результатов с улучшением на 30% на внутренних eval-наборах. Комментаторы выражают скепсис относительно практической применимости моделей, хорошо показывающих себя на бенчмарках, но плохо генерализирующих на реальные задачи.

    • Recoil42 обращает внимание на автономные итерационные возможности M2.7. Модель оптимизирует sampling-параметры и workflow-гайдлайны через циклы «анализ → изменение → оценка».
    • Specialist_Sun_7819 поднимает критический вопрос о разрыве между бенчмарками и реальностью. Нужны пользовательские тесты для оценки того, как модели справляются с задачами вне обучающего распределения.
    • Lowkey_LokiSN выражает обеспокоенность устойчивостью к квантизации, ссылаясь на проблемы с UD-Q4_K_XL вариантом предыдущей M2.5.
  • MiniMax M2.7 на подходе (Активность: 329): Твит MiniMax об участии в NVIDIA GTC с обсуждением M2.7, мультимодальных систем и AI-продуктов. Комментаторы отмечают эффективность MiniMax 2.5 в инструментальных задачах и RAG, хвалят скорость, но указывают на отсутствие поддержки изображения и аудио на входе — что M2.7 может исправить.

    • z_3454_pfk хвалит MiniMax 2.5 за эффективность с тулингом и RAG, но отмечает отсутствие поддержки изображения и аудио на входе.
    • Dismal-Effect-1914 подчёркивает компактность: при 4-битной квантизации модель занимает около 150 ГБ. Это делает её лучшей в балансе производительности и ресурсоёмкости для сред с ограниченным хранилищем.