Блог о разработке
Статьи о программировании, технологиях и анализе данных

Agent 4 существенно развивает четыре направления рабочего процесса: дизайн, совместную работу, диапазон создаваемых артефактов (элементов проекта — сайтов, приложений, презентаций) и подход к...

В текущей реальности Retrieval-Augmented Generation (RAG), главное узкое место для разработчиков — уже не сама большая языковая модель (LLM), а пайплайн загрузки данных. Конвертация сложных...
Автор: bintocher|20 марта 2026

Прошло меньше двух месяцев с IPO MiniMax и публикации первых финансовых результатов. Компания снова в заголовках — на этот раз с MiniMax 2.7. Яркая новость на фоне перетасовки в линейке Qwen. По...
Автор: bintocher|20 марта 2026

Cursor выпустил Composer 2 — третье поколение собственной модели для написания кода. На ключевых бенчмарках она обходит Claude Opus 4.6 от Anthropic, при этом цена в разы ниже. Новая модель стоит от...

Я немного опоздал с обзором этой модели, но успел подумать о том, какие оси реально важны для агентов. Традиционные бенчмарки сводят производительность модели к одной цифре — корректности. Так было...
Автор: bintocher|19 марта 2026

LLM-агенты всё чаще работают в постоянных реальных ролях и сталкиваются с непрерывным потоком задач. Ключевое ограничение: агенты не умеют учиться на накопленном опыте. Они вынуждены отбрасывать...
Автор: bintocher|19 марта 2026

Зиян Цай — Принстонский университет Харкират Бехл — Microsoft Research С появлением AI-агентов автоматические научные открытия стали реальной целью. Многие недавние работы строят агентные системы для...
Автор: bintocher|19 марта 2026

Мы исследуем адверсариальную устойчивость open-source vision-language моделей (VLM — модели для совместной работы с изображениями и текстом), развёрнутых в изолированной e-commerce среде. Среда...
Автор: bintocher|19 марта 2026

Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: bintocher|19 марта 2026

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: bintocher|19 марта 2026

Image Credits: Carol Yepes / Getty Images AI-агент в Meta вышел из-под контроля и открыл доступ к конфиденциальным данным компании и пользователей для сотрудников, не имевших на это прав. Как следует...
Автор: bintocher|19 марта 2026

Google Labs развернул инструмент Stitch в полноценную платформу для проектирования ПО на базе ИИ. Инструмент генерирует пользовательские интерфейсы по текстовым описаниям на естественном языке. Этот...

Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...

Отладка AI-агентов отличается от обычной. Трейсы (логи выполнения) уходят на сотни шагов вглубь. Промпты содержат тысячи строк. Когда что-то ломается, причина ошибки теряется посередине. Polly — это...

При переходе от однократных запросов к сложным многошаговым workflow надёжность моделей ломается в предсказуемых местах. Tool-вызовы не соответствуют схемам. Качество reasoning (цепочек рассуждений)...

Agentic-бенчмарки (тесты, где модель действует как автономный агент) по написанию кода — SWE-bench и Terminal-Bench — стали стандартом для сравнения возможностей передовых моделей. Разрыв между...
Автор: bintocher|18 марта 2026

Полгода я собирал идеальный CLAUDE.md. Вычитывал каждую строку: «используй yarn, не npm», «тесты запускай так», «структура проекта вот такая». 200 строк выстраданного контекста. Потом учёные из ETH...
Автор: bintocher|18 марта 2026

Claude Code получает полноценную систему code review на базе команды агентов — по модели, которую мы используем в Anthropic. Доступно в research preview — раннем доступе для тестирования. Сегодня мы...
Автор: bintocher|18 марта 2026

Дизайн-платформа Picsart, построенная вокруг ИИ, запускает маркетплейс AI-агентов, где креаторы могут «нанять» ИИ-ассистентов для конкретных задач — например, для ресайза и ремикса контента для...

Мы создавали Cowork, чтобы дать каждому возможность работать на полную мощность с Claude Code. Теперь мы добавили поддержку плагинов. Они позволяют объединять любые навыки, коннекторы (модули...