OpenAI GPT-5.4 mini и nano: обзор, бенчмарки, цены

OpenAI выпустила две новые компактные модели — GPT-5.4 mini и nano. Они созданы для программистских ассистентов, субагентов (вспомогательных моделей, решающих части задачи) и управления компьютером. GPT-5.4 mini почти дотягивает до полноценной модели по производительности, но обе новинки получили существенную наценку по сравнению с предшественниками.

GPT-5.4 mini существенно превосходит GPT-5 mini в написании кода, рассуждениях, мультимодальном понимании (работе с текстом, изображениями и другими типами данных) и работе с инструментами. При этом она работает более чем в два раза быстрее. На ряде бенчмарков модель приближается к гораздо более крупной GPT-5.4: на SWE-Bench Pro она набирает 54,4% против 57,7%, а на OSWorld-Verified, измеряющем навыки управления компьютером, — 72,1% против 75,0%.

Benchmark	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
SWE-Bench Pro	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%
Toolathlon	54.6%	42.9%	35.5%	26.9%
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%

GPT-5.4 nano — самая маленькая и дешёвая из новых моделей. OpenAI рекомендует её для классификации, извлечения данных, ранжирования и coding subagents (вспомогательных моделей для простых задач с кодом). Эта модель также делает большой шаг вперёд по сравнению с GPT-5 nano.

Крупные модели планируют, компактные пашут

В Codex OpenAI применяет архитектуру с субагентами. Крупная модель вроде GPT-5.4 отвечает за планирование, координацию и финальную оценку. Параллельные подзадачи делегируются субагентам на базе GPT-5.4 mini или nano.

К таким подзадачам относятся поиск по кодовой базе, сканирование больших файлов или обработка сопроводительной документации. В Codex GPT-5.4 mini тратит лишь 30% от квоты GPT-5.4. Это снижает стоимость решения простых задач примерно до трети.

GPT-5.4 mini показывает большой скачок в управлении компьютером. На бенчмарке OSWorld-Verified она набрала 72,1%, немного уступив полноценной GPT-5.4 (75,0%). При этом GPT-5 mini набрала лишь 42,0%.

Написание кода

Benchmark	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
SWE-bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%

Вызов инструментов

Benchmark	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
MCP Atlas	67.2%	57.7%	56.1%	47.6%
Toolathlon	54.6%	42.9%	35.5%	26.9%
τ2-bench (telecom)	98.9%	93.4%	92.5%	74.1%

Интеллект

Benchmark	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
HLE w/ tool	52.1%	41.5%	37.7%	31.6%
HLE w/o tools	39.8%	28.2%	24.3%	18.3%

Мультимодальность / Vision / CUA (Computer Use Agent)

Benchmark	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%
MMMUPro w/ Python	81.5%	78.0%	69.5%	74.1%
MMMUPro	81.2%	76.6%	66.1%	67.5%
OmniDocBench 1.5 (no tools, lower is better)	0.109	0.1263	0.2419	0.1791

Длинный контекст

Benchmark	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
OpenAI MRCR v2 8-needle 64K-128K	86.0%	47.7%	44.2%	35.1%
OpenAI MRCR v2 8-needle 128K-256K	79.3%	33.6%	33.1%	19.4%
Graphwalks BFS 0K-128K	93.1%	76.3%	73.4%	73.4%
Graphwalks parents 0-128K (accuracy)	89.8%	71.5%	50.8%	64.3%

Улучшенная производительность обойдётся вплоть до 4-кратного роста цены

GPT-5.4 mini уже доступна через API, Codex и ChatGPT по $0,75 за 1 млн входных токенов и $4,50 за 1 млн выходных. Nano доступна только через API: $0,20 за 1 млн входных и $1,25 за 1 млн выходных токенов. Обе модели поддерживают контекстное окно в 400 000 токенов.

По сравнению с предыдущими mini- и nano-моделями в линейке GPT-5, это серьёзный скачок в цене. GPT-5 mini стоила $0,25 за 1 млн входных токенов и $2,00 за 1 млн выходных. GPT-5 nano оценивалась в $0,05 за вход и $0,40 за выход на 1 млн токенов.

Модель	Вход (за 1 млн токенов)	Выход (за 1 млн токенов)	Наценка на вход	Наценка на выход
GPT-5.4 mini	$0.75	$4.50	3.0x	2.25x
GPT-5.4 nano	$0.20	$1.25	4.0x	3.125x
GPT-5 mini	$0.25	$2.00	-	-
GPT-5 nano	$0.05	$0.40	-	-

Повышение цен, вероятно, обосновано приростом производительности. Новые компактные модели приближаются к полноценным версиям, запуск которых обходится значительно дороже.