OpenAI выпускает GPT-5.4 mini и nano: быстрее и умнее, но до 4 раз дороже

OpenAI выпустила две новые компактные модели — GPT-5.4 mini и nano. Они созданы для программистских ассистентов, субагентов (вспомогательных моделей, решающих части задачи) и управления компьютером. GPT-5.4 mini почти дотягивает до полноценной модели по производительности, но обе новинки получили существенную наценку по сравнению с предшественниками.

GPT-5.4 mini существенно превосходит GPT-5 mini в написании кода, рассуждениях, мультимодальном понимании (работе с текстом, изображениями и другими типами данных) и работе с инструментами. При этом она работает более чем в два раза быстрее. На ряде бенчмарков модель приближается к гораздо более крупной GPT-5.4: на SWE-Bench Pro она набирает 54,4% против 57,7%, а на OSWorld-Verified, измеряющем навыки управления компьютером, — 72,1% против 75,0%.

Benchmark GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
SWE-Bench Pro 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 75.1% 60.0% 46.3% 38.2%
Toolathlon 54.6% 42.9% 35.5% 26.9%
GPQA Diamond 93.0% 88.0% 82.8% 81.6%
OSWorld-Verified 75.0% 72.1% 39.0% 42.0%

GPT-5.4 nano — самая маленькая и дешёвая из новых моделей. OpenAI рекомендует её для классификации, извлечения данных, ранжирования и coding subagents (вспомогательных моделей для простых задач с кодом). Эта модель также делает большой шаг вперёд по сравнению с GPT-5 nano.

Крупные модели планируют, компактные пашут

В Codex OpenAI применяет архитектуру с субагентами. Крупная модель вроде GPT-5.4 отвечает за планирование, координацию и финальную оценку. Параллельные подзадачи делегируются субагентам на базе GPT-5.4 mini или nano.

К таким подзадачам относятся поиск по кодовой базе, сканирование больших файлов или обработка сопроводительной документации. В Codex GPT-5.4 mini тратит лишь 30% от квоты GPT-5.4. Это снижает стоимость решения простых задач примерно до трети.

GPT-5.4 mini показывает большой скачок в управлении компьютером. На бенчмарке OSWorld-Verified она набрала 72,1%, немного уступив полноценной GPT-5.4 (75,0%). При этом GPT-5 mini набрала лишь 42,0%.

Написание кода

Benchmark GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
SWE-bench Pro (Public) 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 75.1% 60.0% 46.3% 38.2%

Вызов инструментов

Benchmark GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
MCP Atlas 67.2% 57.7% 56.1% 47.6%
Toolathlon 54.6% 42.9% 35.5% 26.9%
τ2-bench (telecom) 98.9% 93.4% 92.5% 74.1%

Интеллект

Benchmark GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
GPQA Diamond 93.0% 88.0% 82.8% 81.6%
HLE w/ tool 52.1% 41.5% 37.7% 31.6%
HLE w/o tools 39.8% 28.2% 24.3% 18.3%

Мультимодальность / Vision / CUA (Computer Use Agent)

Benchmark GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
OSWorld-Verified 75.0% 72.1% 39.0% 42.0%
MMMUPro w/ Python 81.5% 78.0% 69.5% 74.1%
MMMUPro 81.2% 76.6% 66.1% 67.5%
OmniDocBench 1.5 (no tools, lower is better) 0.109 0.1263 0.2419 0.1791

Длинный контекст

Benchmark GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
OpenAI MRCR v2 8-needle 64K-128K 86.0% 47.7% 44.2% 35.1%
OpenAI MRCR v2 8-needle 128K-256K 79.3% 33.6% 33.1% 19.4%
Graphwalks BFS 0K-128K 93.1% 76.3% 73.4% 73.4%
Graphwalks parents 0-128K (accuracy) 89.8% 71.5% 50.8% 64.3%

Улучшенная производительность обойдётся вплоть до 4-кратного роста цены

GPT-5.4 mini уже доступна через API, Codex и ChatGPT по $0,75 за 1 млн входных токенов и $4,50 за 1 млн выходных. Nano доступна только через API: $0,20 за 1 млн входных и $1,25 за 1 млн выходных токенов. Обе модели поддерживают контекстное окно в 400 000 токенов.

По сравнению с предыдущими mini- и nano-моделями в линейке GPT-5, это серьёзный скачок в цене. GPT-5 mini стоила $0,25 за 1 млн входных токенов и $2,00 за 1 млн выходных. GPT-5 nano оценивалась в $0,05 за вход и $0,40 за выход на 1 млн токенов.

Модель Вход (за 1 млн токенов) Выход (за 1 млн токенов) Наценка на вход Наценка на выход
GPT-5.4 mini $0.75 $4.50 3.0x 2.25x
GPT-5.4 nano $0.20 $1.25 4.0x 3.125x
GPT-5 mini $0.25 $2.00 - -
GPT-5 nano $0.05 $0.40 - -

Повышение цен, вероятно, обосновано приростом производительности. Новые компактные модели приближаются к полноценным версиям, запуск которых обходится значительно дороже.