Claude Opus 4.7: ровно на шаг лучше Opus 4.6 по всем измерениям

Anthropic официально выпустила Claude Opus 4.7 — новую флагманскую модель линейки Opus. OpenAI в тот же день выпустила GPT-Rosalind и обновлённый Codex с удачным computer use (управление компьютером через интерфейс), но главный релиз четверга бесспорно за Anthropic. Слухи ходили минимум неделю — реальность даже немного превзошла ожидания.

Ключевая картина:

Суть проста: 4.7-low надёжно лучше 4.6-medium, 4.7-medium надёжно лучше 4.6-high, 4.7-high обходит 4.6-max. Новый уровень xhigh стал дефолтом в Claude Code. Новый tokenizer (алгоритм разбиения текста на токены) может увеличивать расход токенов на 35%. Но общая эффективность reasoning (цепочки логических рассуждений) настолько выросла, что суммарный расход токенов снизился до 50% относительно аналогичных конфигураций 4.6. Настоящая проверка — вырастет ли SWE-Bench Pro на 11 пунктов в ваших реальных задачах.

Вторая ключевая особенность, которую надо видеть самому, — substantially better vision. Opus 4.7 принимает изображения до 2 576 px по длинной стороне (~3,75 мегапикселя), более чем в три раза больше предыдущих моделей Claude. Это открывает множество мультимодальных сценариев: computer-use агенты, читающие плотные скриншоты, извлечение данных из сложных диаграмм, задачи с pixel-perfect референсами.

Что именно выпустили

Anthropic позиционирует Opus 4.7 как модель, лучше 4.6 во всём: длинные задачи, кодинг, следование инструкциям, самопроверка, computer use, интеллектуальная работа. Цены не изменились: $5 / $25 за миллион input/output токенов.

Официальный фокус — три поведенческих улучшения: лучше справляется с длинными задачами, точнее следует инструкциям, сильнее верифицирует ответ перед выдачей.

Доступность:

Claude platform / app — сразу после релиза.
Claude Code — поддержка с первого дня, xhigh как уровень reasoning по умолчанию.
Публичная бета task budgets (бюджетов токенов на задачу), /ultrareview в Claude Code, расширенный доступ к Auto mode для Claude Code Max.

Новый уровень reasoning

Появился xhigh — между high и max. Claude Code теперь использует его по умолчанию для Opus 4.7.

Vision и computer use

Изображения до 2 576 px по длинной стороне (~3,75 MP) — в три раза больше прежнего лимита.
Меньше даунскейлинга высокоразрешительных изображений.
Улучшен «вкус» при генерации UI/слайдов/документов.
Напрямую связано с лучшим computer use и workflows со скриншотами.

Новый tokenizer и экономика токенов

Opus 4.7 использует другой tokenizer, чем 4.6. Один и тот же вход может превращаться в 1,0–1,35× больше токенов в зависимости от типа контента. Это вызвало дискуссию: новый base model (базовая модель без дополнительной настройки)? midtraining (этап дообучения)? дистилляция (перенос знаний от большей модели к меньшей) Mythos?

Anthropic компенсировала рост расхода, повысив лимиты для всех подписчиков.

Бенчмарки

Бенчмарк	Opus 4.7	Дельта vs 4.6
SWE-bench Pro	64,3%	+11 п.
SWE-bench Verified	87,6%	+7 п.
TerminalBench 2.0	69,4%	+4 п.
Document reasoning	80,6%	с 57,1%
GDPval-AA	1753 Elo	#1
ARC-AGI-1	92%	—
ARC-AGI-2	75,83%	—

Artificial Analysis зафиксировал Opus 4.7 как #1 на GDPval-AA с примерным 60% win rate против GPT-5.4.

Vals AI: #1 на Vals Index (71,4%), предыдущий максимум — 67,7%. Также #1 на Vibe Code Bench, Vals Multimodal, Finance Agent, Mortgage Tax, SAGE, SWE-Bench и Terminal Bench 2. На Vibe Code Benchmark модель набрала 71% — для сравнения, 4,5 месяца назад ни одна модель не пробивала 25%.

Отклик платформ

Cursor: внутренний бенчмарк прыгнул с 58% до 70%.
Notion: +14% на внутренних evaluations, при этом ошибки инструментов сократились втрое.
GitHub: сообщил о схожих улучшениях, без конкретных цифр.

Независимая оценка от LlamaIndex

LlamaIndex провёл ParseBench-сравнение и получил более нюансированную картину:

Метрика	Opus 4.6	Opus 4.7
Диаграммы	13,5%	55,8%
Форматирование	64,2%	69,4%
Содержание	89,7%	90,3%
Таблицы	86,5%	87,2%
Компоновка	16,5%	14,0% ↓

Jerry Liu из LlamaIndex отметил, что модель хороша с таблицами и диаграммами, но для OCR-подобных задач дороговата: ~7¢/страницу против ~1,25¢ в agentic-режиме (режиме работы через автономных агентов) и ~0,4¢ в cost-effective (экономичном режиме). Наглядный пример: общие возможности выросли, но для конкретных enterprise-пайплайнов специализированные стеки всё ещё могут быть выгоднее.

Что это за модель на самом деле

Слухов и интерпретаций много:

«Это дистилляция Mythos» — интерпретация, не факт.
«Это новый base model, потому что изменился tokenizer» — логично, но не подтверждено Anthropic.
«Anthropic искусственно занизила кибер-возможности при обучении» — отчасти подтверждается system card (документом с оценкой рисков модели). Anthropic экспериментировала с дифференциальным снижением некоторых capabilities, но более широкие claims о «ослабленном Mythos» — это интерпретация.
«Бенчмарки не передают масштаба, в реальном использовании огромный прыжок» — субъективно, но широко повторяется практиками.
«System prompt лоботомировал модель» — жалоба на изменение поведения, не установленный факт.

Длинный контекст: проблема или нет?

Много пользователей пожаловались, что long-context производительность ухудшилась. Особенно на MRCR / needle-in-a-haystack (метрике поиска нужной информации в длинном тексте). Boris Cherny из Anthropic ответил, что MRCR выводится из использования. Эта метрика переоценивает distractor-stacking (приёмы добавления отвлекающего контента). А Graphwalks — лучшая метрика прикладного reasoning. По Graphwalks рост с 4.6 до 4.7: 38,7% → 58,6%.

Другие претензии

Изменение tokenizer вызвало жалобы на то, что Opus стал потреблять значительно больше токенов при неизменных лист-ценах.
В веб-версии Claude доступен только режим «Adaptive» или без-thinking — без принудительного включения reasoning. Для некодинговых задач это ощущается регрессом.
Жалобы на новый system prompt, который меняет поведение модели не в лучшую сторону.

Как правильно работать с Opus 4.7

Тред Cat Wu из Anthropic — полезный операционный сигнал для инженеров:

Делегируйте, не микроменеджьте — относитесь к модели как к инженеру, которому вы передали задачу, а не как к pair-programmer’у, за которым нужно следить.
Выносите цель + ограничения + критерии приёмки наверх.
Скажите модели, как верифицировать изменения — зашейте тестовые workflow в claude.md или skills.

Это прямо говорит о том, что Anthropic оптимизировала модель под автономные task loops, где центральное место занимает явная валидация.