Исчезающий средний класс ИИ

За 24 часа на прошлой неделе OpenAI и DeepSeek сделали взаимоисключающие ставки на то, сколько стоит frontier-ИИ (модели самого высокого уровня). Один говорит: это закрытый продукт, который только что подорожал. Другой говорит: это открытая инфраструктура, которая только что радикально подешевела. Ценовой разрыв между полюсами рынка сейчас шире, чем когда-либо за последние годы, а комфортный средний сегмент, через который маршрутизировалось большинство coding-агентов, стремительно редеет.

До прошлой недели можно было выбрать модель на достаточно плавной кривой «цена — качество». Был верхний сегмент, средний и бюджетный, и большинство рабочих нагрузок находили себе место на этом склоне. Кривая осталась, но она растянулась. То, что выглядело как непрерывный градиент, теперь больше похоже на два кластера с разрывом посередине. Разработчикам, строящим агентов, программистские ассистенты и high-volume inference-пайплайны, теперь приходится тщательнее думать, на какую сторону отправлять запросы.

Комфортный средний сегмент, через который маршрутизировалось большинство coding-агентов, стремительно редеет.

Раскол за 24 часа

23 апреля OpenAI выпустила GPT-5.5 по цене $5 за миллион входных токенов и $30 за миллион выходных. Это ровно в два раза дороже GPT-5.4 ($2.50 и $15 соответственно). Модель использует контекстное окно в 1M токенов и набирает 82.7% на Terminal-Bench 2.0 против 75.1% у GPT-5.4. OpenAI утверждает, что удорожание компенсируется токен-эффективностью: GPT-5.5 тратит меньше токенов на выполнение той же задачи в Codex. Точная эффективная стоимость на странице запуска не опубликована, поэтому экономика задачи зависит от рабочей нагрузки.

24 апреля DeepSeek выпустила V4-Pro и V4-Flash. V4-Pro стоит $1.74 за миллион входных и $3.48 за миллион выходных токенов, с учётом скидки до 5 мая 2026 года. V4-Flash оценён в $0.14 на вход и $0.28 на выход. Обе модели выпущены под лицензией MIT с полными открытыми весами на Hugging Face. Обе по умолчанию работают с контекстным окном в 1 миллион токенов. V4-Pro набирает 80.6% на SWE-bench (согласно model card — технической карточке модели), что близко к результату Claude Opus 4.6.

Два ценовых объявления за одни выходные — в противоположных направлениях. По прайсу выходные токены V4-Pro стоят примерно в девять раз дешевле, чем у GPT-5.5. С учётом скидки разрыв увеличивается. V4-Flash находится ещё на порядок ниже. Арифметика впечатляет. Но важнее подача.

Расширяющийся ценовой разрыв

Модель Вход (за 1M) Выход (за 1M) Контекст
OpenAI GPT-5.5 $5.00 $30.00 1M токенов
Anthropic Opus 4.7 $5.00 $25.00 1M токенов
DeepSeek V4-Pro $1.74 $3.48 1M токенов
DeepSeek V4-Flash $0.14 $0.28 1M токенов

Что на самом деле продаёт OpenAI

GPT-5.5 — не просто более умная модель. Это центральный элемент стека. Codex наследует обновление с расширенным computer use (управлением компьютером: кликами, вводом, навигацией), взаимодействием с браузером и более длинными agentic-сессиями (сессиями, где модель действует как автономный агент). ChatGPT получает модель по умолчанию на тарифах Plus, Pro, Business и Enterprise. API тоже получает её с тем же контекстным окном в 1M токенов.

Ставка в том, что интеллект, serving-стек (серверная инфраструктура обработки запросов), агентская обвязка и computer use — это один продукт. И этот продукт стоит вдвое дороже за токен, чем поколение назад. Greg Brockman на презентации описал модель как такую, которая берёт последовательность действий, использует инструменты, проверяет свою работу и продолжает, пока задача не будет выполнена. Целевой клиент — предприятие, которое хочет получить всё от одного вендора, с одним API-ключом, одним safety-ревью и одной строкой в счёте. OpenAI не продаёт токены. Она продаёт результаты, и результаты теперь соответствующим образом оценены.

OpenAI не продаёт токены. Она продаёт результаты, и результаты теперь соответствующим образом оценены.

Это объясняет и темп релизов. GPT-5.4 вышла в начале марта. GPT-5.5 последовала через шесть недель. Это не гонка за бенчмарками. Это стратегия корпоративных продаж. OpenAI выпускает модели достаточно быстро, чтобы оставаться дефолтом в каждом бюджетном разговоре третьего квартала. И оценивает их достаточно высоко, чтобы финансировать следующий training run (цикл обучения) без размывания премиального позиционирования. Закрытый продукт — это ров.

OpenAI не сняла с поддержки более дешёвые тарифы. GPT-5.4, GPT-5.4 mini и GPT-5.4 nano остаются в прайс-листе вместе с Batch, Flex, Priority и тарифами на кэшированный ввод. Середина каталога OpenAI существует. Изменилось положение флагмана. А именно к флагману по умолчанию идут coding-агенты и frontier-нагрузки.

Что на самом деле выпускает DeepSeek

V4 — это не ход ценовой войны. Цены — следствие трёх разных решений.

Первое — архитектурное. V4-Pro — это Mixture-of-Experts модель (архитектура, активирующая лишь часть параметров на каждый запрос) с 1.6 триллиона общих параметров и 49 миллиардами активных на токен. V4-Flash использует 284 миллиарда общих и 13 миллиардов активных. Model card DeepSeek описывает гибридную схему внимания. Она сочетает compressed sparse attention с heavily compressed attention — два варианта оптимизированного механизма внимания. Схема создана для сокращения FLOPs (числа вычислительных операций) при 1M-токенном inference и нагрузки на KV cache (кэш, хранящий контекст для ускорения генерации). Модель достигает результатов, близких к лучшим на рынке, активируя малую долю весов на каждый токен. Умнее архитектура — меньше вычислений.

Второе — дистрибуция. Лицензия MIT — самая permissive из открытых лицензий, то есть накладывает минимум ограничений. Любой может скачать веса, хостить их, файнтюнить, встраивать в продукт и продавать этот продукт коммерчески. V4-Flash с 13B активных параметров работает на multi-GPU кластерах, которые по карману командам среднего размера. V4-Pro требует более серьёзной инфраструктуры, но опция существует. DeepSeek ставит на то, что frontier-интеллект станет инфраструктурой — как Linux. И что лаборатория, выпускающая веса, захватит экосистему, а не маржу с рантайма.

DeepSeek ставит на то, что frontier-интеллект станет инфраструктурой — как Linux, — и что лаборатория, выпускающая веса, захватит экосистему, а не маржу с рантайма.

Третье — железо. В тот же день Huawei объявила, что её Ascend-суперноды полностью поддерживают inference V4. Reuters сообщила, что V4 была адаптирована под самые продвинутые AI-чипы Huawei. Huawei подтвердила использование своих чипов для части обучения V4-Flash.

DeepSeek не уточнила, обучалась ли V4-Pro на том же железе, что и более ранние модели V3 и R1 (те бегали на Nvidia). SMIC, китайский контрактный производитель, выпускающий кремний Ascend, выросла на 10% на торгах в Гонконге. Hua Hong Semiconductor подскочила на 15%. Узкий сигнал: high-end open-weight inference и как минимум часть обучения одной модели можно адаптировать под стек Ascend. Это не полная независимость от Nvidia, но первый frontier-релиз, где этот вопрос вообще имеет смысл задавать.

Важная оговорка: DeepSeek V4 на старте — только текст. DeepSeek заявляет, что мультимодальность в разработке, но изображения и видео пока не поддерживаются. Для нагрузок, требующих мультимодального рассуждения, V4 сейчас не является drop-in-заменой (заменой без изменений в коде) GPT-5.5 или Opus 4.6.

Дешёвый inference — следствие этих трёх решений, а не стратегия. Стратегия — сделать текстовый интеллект похожим на commodity (массовый стандартный продукт).

Середина редеет, но не исчезает

До прошлой недели у разработчика, строившего coding-агента, был удобный средний вариант. GPT-5.4 по $2.50 и $15 сидела в сладком месте. Достаточно дёшево для масштабирования, достаточно умно для большинства agentic-задач, хостится у вендора, которому все доверяют. Этот тариф всё ещё в прайс-листе, но он больше не флагман, а новый флагман стоит вдвое дороже.

GPT-5.5 заняла верхнюю позицию по $5 и $30. V4-Pro забрала нижнюю — с выходными токенами в девять раз дешевле GPT-5.5 без учёта скидок. V4-Flash находится ещё на порядок ниже. Claude Opus 4.7 от Anthropic примерно за $5 входа и $25 выхода расположилась рядом с GPT-5.5 в премиальном сегменте, а не в разрыве между премиумом и open-weight моделями.

Для разработчика выбор больше не сводится к тому, какая модель лучше ложится на плавную кривую. Выбор — в какую экономику отправить какую задачу. Заплатить за интегрированный продукт или запускать открытую инфраструктуру. Многие продакшн-стеки в итоге будут маршрутизировать через обе стороны. Ценовой разрыв достаточно широк, чтобы оправдать инженерные затраты на routing-логику.

Что это значит для слоя обвязки

Из поляризации следуют три конкретных сдвига.

Первый — агентские обвязки неизбежно становятся более model-agnostic (независимыми от конкретной модели). Cursor, Claude Code, OpenAI Codex и open-source обвязки OpenClaw и Hermes Agent теперь все выигрывают от чистой routing-логики. Она способна перемещать нагрузки между двумя экономиками в зависимости от сложности задачи.

Coding-агент, который использует GPT-5.5 для планирования и V4-Flash для массовой правки кода, больше не экзотика. При таком разрыве в ценах это очевидная архитектура. DeepSeek отмечает, что V4 оптимизирована для агентских инструментов, включая Claude Code и OpenClaw. Похоже, экосистема обвязок ждала именно этого.

Второй — математика self-hosting меняется впервые за два года. V4-Flash с 284B общих и 13B активных параметров работает на multi-GPU-сетапах, доступных командам среднего размера. Компромисс реален: вы поступаетесь управляемой надёжностью hyperscaler API (API крупных облачных провайдеров) в обмен на предсказуемую стоимость inference и полный контроль над моделью. Для нагрузок, где токенный объём — ограничивающий фактор, а мультимодальность не нужна, этот компромисс стал острее, чем неделю назад.

Третий — допущение «только Nvidia» начинает выглядеть менее абсолютным. Рыночная реакция на V4 была направлена не только на DeepSeek. Она отразила осознание того, что frontier-модель может выйти оптимизированной под не-Nvidia кремний. И что китайская AI-инфраструктура ближе к запуску на отечественных чипах, чем большинство наблюдателей предполагали год назад. Для разработчиков это расширяет набор жизнеспособных inference-таргетов в долгосрочной перспективе. Для Nvidia — сжимает таймлайн по китайскому вопросу.

Что дальше

Кривая стоимости больше не выглядит плавной. Это два кластера экономики с растянутым разрывом посередине. Этот разрыв в обозримом будущем сам по себе не закроется. OpenAI продолжит быстро выпускать модели и задирать цены, потому что интегрированный продукт — это ров. DeepSeek продолжит выпускать открытые веса и снижать цены, потому что тезис о commodity-инфраструктуре зависит от распространения. Оба могут быть правы для разных нагрузок. И один агент может маршрутизировать между обеими сторонами в рамках одной задачи.

Claude Opus 4.7 от Anthropic пока сидит в премиум-сегменте рядом с OpenAI, но следующие 90 дней покажут, попытается ли кто-то защитить редеющую середину. Китайская open-weight-конкуренция позади DeepSeek (Qwen, Kimi, GLM) окажется под давлением. Нужно будет соответствовать ценообразованию и функциональности V4, иначе рискуешь уступить позиции. А слой обвязок вот-вот станет самым интересным местом в стеке, потому что routing-логика между двумя экономиками больше не опциональна. В следующем материале посмотрим, как open-source обвязки готовятся именно к этому моменту.