Блог о разработке
Статьи о программировании, технологиях и анализе данных

При переходе от однократных запросов к сложным многошаговым workflow надёжность моделей ломается в предсказуемых местах. Tool-вызовы не соответствуют схемам. Качество reasoning (цепочек рассуждений)...

Agentic-бенчмарки (тесты, где модель действует как автономный агент) по написанию кода — SWE-bench и Terminal-Bench — стали стандартом для сравнения возможностей передовых моделей. Разрыв между...
Автор: bintocher|18 марта 2026

Полгода я собирал идеальный CLAUDE.md. Вычитывал каждую строку: «используй yarn, не npm», «тесты запускай так», «структура проекта вот такая». 200 строк выстраданного контекста. Потом учёные из ETH...
Автор: bintocher|18 марта 2026

Claude Code получает полноценную систему code review на базе команды агентов — по модели, которую мы используем в Anthropic. Доступно в research preview — раннем доступе для тестирования. Сегодня мы...
Автор: bintocher|18 марта 2026

Дизайн-платформа Picsart, построенная вокруг ИИ, запускает маркетплейс AI-агентов, где креаторы могут «нанять» ИИ-ассистентов для конкретных задач — например, для ресайза и ремикса контента для...

Мы создавали Cowork, чтобы дать каждому возможность работать на полную мощность с Claude Code. Теперь мы добавили поддержку плагинов. Они позволяют объединять любые навыки, коннекторы (модули...

За последний год несколько инженерных команд создали внутренних coding-агентов, которые работают бок о бок с разработчиками. Stripe разработал Minions, Ramp собрал Inspect, Coinbase создал Cloudbot....
Автор: bintocher|18 марта 2026

За последние девять месяцев скорость создания PR у нас выросла в 5 раз. Инструменты безопасности на базе статического анализа или жёсткого распределения ответственности за код по-прежнему полезны. Но...
Автор: bintocher|18 марта 2026

Мы обучаем Composer решать задачи с длинным горизонтом через reinforcement learning (обучение с подкреплением). Мы назвали этот метод self-summarization (самосжатие). Встроив самосжатие в процесс...
Автор: bintocher|18 марта 2026

Большинство корпоративных AI-проектов проваливаются не из-за нехватки технологий, а потому, что модели не понимают специфику бизнеса. Они обучены на интернет-данных, а не на многолетних внутренних...

Вместе с Claude Opus 4.6 и Sonnet 4.6 мы выпускаем обновлённые версии инструментов web search и web fetch. Теперь Claude может напрямую писать и выполнять код во время веб-поиска — чтобы фильтровать...

Claude Opus 4.6 и Sonnet 4.6 теперь поддерживают полное окно контекста в 1M токенов на Claude Platform по стандартному прайсингу. Ставка одинакова на всём диапазоне: $5/$25 за миллион токенов для...

BrowseComp — бенчмарк (набор тестов), проверяющий, насколько хорошо модели находят труднообнаружимую информацию в интернете. Как и многие бенчмарки, он уязвим к загрязнению данных. Ответы утекают в...
Автор: bintocher|18 марта 2026

16 марта 2026 года компания Zhipu AI (на международном рынке — Z.ai) представила GLM-5-Turbo — языковую модель, специально оптимизированную для агентных сценариев в экосистеме OpenClaw. Контекстное...