Как клиенты тестировали Claude Opus 4.6 до релиза

Перед тем как новая модель Claude выходит в свет, небольшая группа клиентов получает доступ за несколько дней до всех остальных. Они работают с предрелизными research-моделями (версиями для исследовательского использования), прогоняют их через реальные нагрузки и выясняют: где модель справляется, где ломается и готова ли она к внедрению у собственных пользователей в момент публичного запуска. Честные оценки — что работает и что нет — напрямую формируют ту версию модели, которую Anthropic в итоге отгружает.

Время на тестирование ограничено. Команды расчищают календари, разворачивают war rooms (оперативные штабы для совместной работы) и начинают бросать в модель самые сложные задачи. За кулисами — поздние ночи, много кофе и Slack-каналы, оживающие в нерабочие часы. То, что в итоге видят пользователи, выглядит отполированным — но путь к этому значительно хаотичнее и интереснее.

Мы решили приоткрыть завесу и показать, как это выглядит изнутри. Harvey, bolt.new, Shopify и Lovable рассказали о своём периоде раннего доступа к Claude Opus 4.6: подходах, прорывах и выводах, которые они сделали раньше всех.

Подготовка к тестированию

То, как команды начинают работу, сильно зависит от того, что именно они строят.

bolt.new создал выделенный Slack-канал и намеренно воздерживался от обмена первыми впечатлениями, чтобы не повлиять друг на друга.

Исследовательская команда Harvey привлекла опытных юристов для тестирования модели на правовых задачах. Одновременно модель прогонялась через BigLaw Bench — бенчмарк (набор тестов) Harvey для оценки реальной юридической работы.

Инженеры Shopify начали загружать модель в уже построенные вокруг Claude итеративные циклы планирования.

В Lovable команда, управляющая моделями и evals (автоматизированными оценками качества), включилась сразу — запустила бенчмарки, пока инженеры бронировали время на так называемые «vibe checks»: сборку приложений на новой модели, чтобы нащупать, где она стала сильнее. Александр Песан, engineering lead Lovable, сказал: «Похоже на Рождество».

Подходы разные, но инстинкт один: сначала бросить в модель самые трудные задачи.

Когда начинают поступать результаты

Как только тестирование запущено, команды следят за двумя вещами: как модель набирает баллы на бенчмарках и как она ощущается на практике. Оба показателя важны, и они не всегда говорят об одном и том же.

Результаты Harvey на BigLaw Bench составили 90.2%: это первая модель Anthropic, преодолевшая отметку в 90%, причём 40% задач выполнены безупречно. Но сильнее всего запомнилась качественная реакция.

Один из внутренних юристов запустил единичный запрос и вернулся с выводом, что результат выглядит «умным и аналитичным, как будто модель действительно думает». Когда структурированные evals и эксперты-предметники говорят одно и то же — это сильный сигнал.

bolt.new объединил свою автоматизированную платформу evals — тестирующую качество сборки, исправление багов, понимание кодовой базы и эстетику дизайна — с ручным стресс-тестированием. К концу первого дня у них был общий документ с развёрнутыми тестовыми приложениями и конкретными наблюдениями.

У одного разработчика был баг с графиком типа waterfall (каскадный график), который не удавалось исправить за пять и более попыток на предыдущей модели. Opus 4.6 диагностировал его с первой попытки: обнаружил восемь параллельных запросов к HubSpot API и дополнительные запросы, обходившие защиту от rate limiting (ограничения частоты запросов) через прямые HTTP-вызовы вместо встроенного в проект механизма ограничения.

В Shopify Полу Арруда, Staff Engineer, описал момент, который перевернул привычную динамику: «Я попросил Opus 4.6 переместить что-то с одной страницы в другой пункт меню — и всё. Без деталей. Модель не только переместила, но и превзошла ожидания, добавив множество деталей, о которых я даже не знал, что хочу, пока не увидел их. Она предвосхитила мой следующий запрос и просто сделала его. Я поймал себя на том, что говорю ИИ «Вы абсолютно правы», а не наоборот — а раньше всё было наоборот».

Бен Лафферти, Staff Engineer в команде Assistants Shopify, пошёл в другом направлении. Он поручил Opus 4.6 портировать большую библиотеку из TypeScript в Ruby для внутреннего прототипа. «Модель создала shim (прослойку для совместимости) для запуска против существующих тест-кейсов в репозитории, а затем портировала почти весь spec (набор тестов) за один проход, валидируя по оригинальному тестовому набору. Instruction following значительно улучшился. Это один из первых периодов раннего доступа, когда у меня не было существенных замечаний».

В Lovable тестирование шло по двум трекам.

Команда прогоняла дизайн-бенчмарки и evals сложных задач для структурированной картины, но также проводила «vibe checks» — инженеры собирали приложения на новой модели, чтобы почувствовать, где она стала сильнее, а где ломается.

«Всегда немного соревнование — кто первым найдёт новые шероховатости», — сказал Александр Песан.

Его собственный стресс-тест — это сайд-проект со сложной логикой карт метро и маршрутов, в котором предыдущие модели упирались в стену. С Opus 4.6 при максимальном усилии модель пошла дальше точки, где он ожидал остановки.

«Я sort of знаю, когда вещи не сработают или когда мы упираемся в лимиты. Эта модель зашла дальше других». Он также заметил более широкий сдвиг: благодаря способности модели использовать браузер и тестировать себя внутри Lovable, «можно почувствовать разницу в автономности».

На той стороне

К моменту завершения раннего доступа у команд есть чёткая картина того, с чем они работают. Каждая команда, с которой мы говорили, возвращалась к одному и тому же выводу: отношения с моделью меняются.

«Opus 4.6 диагностировал баги с первой попытки, которые мы не могли исправить за пять и более попыток на предыдущих моделях. Скачок в глубине reasoning реален», — сказал Гаррет Сервисс, VP of Marketing bolt.new.

«Для меня Opus 4.6 — первая модель Anthropic, которая ощущается как настоящий коллаборатор в повседневной работе. Горизонт задач, которые я могу делегировать модели, продолжает расти», — сказал Бен Лафферти из Shopify.

«Claude Opus 4.6 — это шаг вперёд в качестве дизайна. Модель более автономна, а это фундаментальная ценность Lovable. Люди должны создавать то, что имеет значение, а не микроменеджерить ИИ», — сказал Фабиан Хедин, сооснователь Lovable.

Разумеется, обратная связь была не только позитивной — в этом и суть. Ранние тестировщики напрямую влияют на то, какую версию модели Anthropic в итоге выпустит. Весь процесс работает только потому, что команды так же откровенны о том, что не работает, как и о том, что работает, — и они знают, что эта откровенность не пропадает втуне.

«Мы получаем возможность формировать будущее инструментов, которые будет использовать наша инженерная организация. Мы не просто пассивные тестировщики — мы партнёры в разработке. Когда мы выявляем проблемы или паттерны, Anthropic слушает и итерирует», — сказал Полу Арруда из Shopify.