Xiaomi выпускает три модели MiMo: для агентов, роботов и голоса

Xiaomi хочет создавать AI-агенты, которые сами управляют софтом, ходят по браузерам и в итоге будут управлять роботами. Чтобы дойти до этого, внутренняя команда MiMo сразу выпустила три модели.

Флагманская MiMo-V2-Pro построена на Mixture-of-Experts архитектуре (модель разделена на блоки-эксперты, где для каждого запроса активируется только часть). Общее число параметров — свыше триллиона, из которых 42 миллиарда активны на каждый запрос. Это примерно в три раза больше, чем у предшественника MiMo-V2-Flash, вышедшего в декабре 2025 года.

Несмотря на рост масштаба, гибридный attention-механизм (способ модели уделять внимание разным частям входных данных) поддерживает эффективность. Модель справляется с контекстным окном до одного миллиона токенов. Кроме того, она генерирует несколько токенов за раз вместо предсказания по одному слову. Это даёт заметный прирост скорости.

Two bar charts show the benchmark results for MiMo-V2-Pro. On the left, PinchBench scored 81.0 points, ranking third behind Claude Opus 4.6 (81.5) and MiMo-V2-Omni (81.2). On the right, ClawEval with 61.5 points ranks third behind Claude Opus 4.6 and Claude Sonnet 4.6 (both 66.3).

MiMo-V2-Pro занимает третье место в мире по PinchBench и ClawEval, немного уступая Claude Opus 4.6. | Изображение: Xiaomi

В Artificial Analysis Intelligence Index MiMo-V2-Pro расположилась на седьмой строчке в мире. Это лучшая среди китайских моделей после GLM-5 и MiniMax-M2.7. На кодинговом бенчмарке SWE-bench Verified она набирает 78%, чуть не дотянув до Claude Opus 4.6 (80,8%) и практически вплотную к Claude Sonnet 4.6 (79,6%). На агентском бенчмарке ClawEval модель набирает 81 балл, почти равняясь Claude Opus 4.6 с его 81,5, тогда как GPT-5.2 остаётся на 77.

MiMo-V2-Pro генерирует 3D-игру в жанре tower defense с разными типами башен, волнами врагов и эффектами взрывов по одному промпту. | Изображение: Xiaomi

Xiaomi сильно демпингует против Anthropic

Xiaomi атакует конкурентов ценой. Согласно странице платформы, MiMo-V2-Pro стоит $1 за миллион входных токенов и $3 за миллион выходных при длине контекста до 256 000 токенов. Для сравнения: Claude Sonnet 4.6 стоит $3 или $15, а Claude Opus 4.6 — $5 или $25. Кроме того, Xiaomi пока полностью отменяет плату за запись в кэш.

Модель доступна через публичный API. К запуску Xiaomi привлекла пять агентских фреймворков: OpenClaw, OpenCode, KiloCode, Blackbox и Cline. Разработчики со всего мира получают бесплатный доступ к API на одну неделю.

MiMo-V2-Omni: видит, слышит и действует в одной модели

MiMo-V2-Omni объединяет image-, video- и audio-энкодеры (модули для обработки изображений, видео и аудио) в единую backbone-сеть (базовую сеть, обрабатывающую все типы данных вместе). Модель воспринимает входящие данные и действует на их основе. Она нативно поддерживает структурированные tool calls (вызовы внешних инструментов в стандартном формате), выполняет функции и самостоятельно навигируется по пользовательским интерфейсам.

Two bar charts show the benchmark results for MiMo-V2-Pro. On the left, PinchBench scored 81.0 points, ranking third behind Claude Opus 4.6 (81.5) and MiMo-V2-Omni (81.2). On the right, ClawEval with 61.5 points ranks third behind Claude Opus 4.6 and Claude Sonnet 4.6 (both 66.3).

MiMo-V2-Omni обходит Claude Opus 4.6 на аудио- и image-бенчмарках, но уступает Gemini 3 Pro на видео. | Изображение: Xiaomi

Xiaomi заявляет, что MiMo-V2-Omni обходит Gemini 3 Pro по аудио и способна непрерывно записывать более десяти часов. На изображениях (MMMU-Pro: 76,8) она обходит Claude Opus 4.6 (73,9). Но агентские бенчмарки показывают иную картину: на ClawEval модель набирает лишь 54,8 — заметно позади Claude Opus 4.6 (66,3) и GPT-5.2 (59,6). Зато на веб-навигационном бенчмарке MM-BrowserComp она обошла и Gemini 3 Pro, и GPT-5.2.

Для демонстрации Xiaomi скормила модели записи с видеорегистратора. Модель в реальном времени помечала пешеходов, встречные машины и заторы как потенциальные опасности. В другом сценарии MiMo-V2-Omni сама открыла браузер, нашла отзывы о товаре на Xiaohongshu, сравнила цены на JD.com, поторговалась за скидку через чат поддержки и оформила покупку.

Отдельный демо показал, как модель создаёт мультимедийный контент, дебажит его код и публикует результат в TikTok через браузер — всё без участия человека. Во всех случаях MiMo-V2-Omni принимает решения, а open-source фреймворк OpenClaw выполняет фактические клики и файловые операции.

MiMo-V2-TTS: эмоциональная речь по описанию на естественном языке

По словам Xiaomi, модель синтеза речи MiMo-V2-TTS обучена на более чем 100 миллионах часов аудио. Она разбирает речь на несколько параллельных слоёв дискретных единиц (базовых звуковых элементов). Это даёт более тонкий контроль над звучанием, ритмом и эмоциями, чем стандартные TTS-системы.

Ключевое отличие: вместо выбора эмоции из выпадающего списка пользователь описывает нужный голос обычным языком. «Сонный, только что проснулся, слегка хриплый» звучит иначе, чем «злой, но старающийся сдержаться». Модель также генерирует паралингвистические звуки — кашель, паузы-запинки, вздохи и смех — как часть вывода, а не склеивает аудиоклипы постфактум.

По заявлению Xiaomi, MiMo-V2-TTS — единственный коммерчески доступный TTS API, который нативно обрабатывает и речь, и пение в одной модели. Она считывает типографские сигналы вроде заглавных букв или повторяющихся символов как указания на акцент и ритм. Так что «ЭТО ВАЖНО» звучит с настоящим ударом, а не просто громче. Даже без стилевых инструкций модель подхватывает нужную интонацию прямо из текста.

Конкурентные бенчмарки, но Xiaomi ещё есть куда расти

Одновременный выпуск трёх специализированных моделей — чёткий сигнал: Xiaomi строит full-stack платформу для AI-агентов. Бенчмарки показывают, что в некоторых областях модели идут ноздря в ноздрю с Anthropic и OpenAI, а в других пока отстают. В частности, по общим агентским задачам MiMo-V2-Pro ещё предстоит поработать, чтобы догнать Claude Opus 4.6.

Дальше команда MiMo берётся за долгосрочное планирование на масштабе часов и дней, реалтайм-стриминг, координированные multi-agent системы (несколько агентов, работающих вместе) и робототехнику. «Мы верим, что путь к общему интеллекту лежит через реальный мир», — пишет команда. «Модель, которая только читает текст, живёт в библиотеке. Модель, которая видит, слышит, рассуждает и действует, живёт в мире.»

Загадка «Hunter Alpha» — это был не Deepseek

До официального анонса Xiaomi MiMo-V2-Pro появилась анонимно на API-платформе OpenRouter под кодовым именем «Hunter Alpha». Xiaomi говорит, что использование стабильно росло: модель несколько дней подряд возглавляла дневной рейтинг и накрутила в общей сложности свыше триллиона токенов. Самый популярный сценарий — кодинг.

Многие пользователи гадали, что Hunter Alpha на самом деле Deepseek V4. Но Deepseek ещё далеко — по данным, выход следующей крупной модели отложен из-за растущего размера.

Другие китайские AI-лаборатории тоже не сидят сложа руки. Zhipu AI недавно выпустила GLM-5 — open-source модель на 744 миллиарда параметров, нацеленную на конкуренцию с Claude Opus 4.5 и GPT-5.2 по кодингу и агентским задачам. Moonshot AI с моделью Kimi K2.5 идёт другим путём — через рои (группы) параллельно работающих агентов, а Alibaba расширяет линейку Qwen 3.5.