Блог о разработке

Статьи о программировании, технологиях и анализе данных

Что изменилось в Replit Agent 4 по сравнению с Agent 3
Agent 4 существенно развивает четыре направления рабочего процесса: дизайн, совместную работу, диапазон создаваемых артефактов (элементов проекта — сайтов, приложений, презентаций) и подход к...
Автор: bintocher|20 марта 2026
LlamaIndex выпускает LiteParse: CLI и нативная TypeScript-библиотека для пространственного парсинга PDF в AI-агентах
В текущей реальности Retrieval-Augmented Generation (RAG), главное узкое место для разработчиков — уже не сама большая языковая модель (LLM), а пайплайн загрузки данных. Конвертация сложных...
Автор: bintocher|20 марта 2026
MiniMax 2.7: SOTA среди открытых моделей за треть цены GLM-5
Прошло меньше двух месяцев с IPO MiniMax и публикации первых финансовых результатов. Компания снова в заголовках — на этот раз с MiniMax 2.7. Яркая новость на фоне перетасовки в линейке Qwen. По...
Автор: bintocher|20 марта 2026
Composer 2 от Cursor обходит Opus 4.6 на бенчмарках по коду — и стоит в разы дешевле
Cursor выпустил Composer 2 — третье поколение собственной модели для написания кода. На ключевых бенчмарках она обходит Claude Opus 4.6 от Anthropic, при этом цена в разы ниже. Новая модель стоит от...
Автор: bintocher|20 марта 2026
GPT 5.4 — серьёзный шаг вперёд для Codex
Я немного опоздал с обзором этой модели, но успел подумать о том, какие оси реально важны для агентов. Традиционные бенчмарки сводят производительность модели к одной цифре — корректности. Так было...
Автор: bintocher|19 марта 2026
ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях
LLM-агенты всё чаще работают в постоянных реальных ролях и сталкиваются с непрерывным потоком задач. Ключевое ограничение: агенты не умеют учиться на накопленном опыте. Они вынуждены отбрасывать...
Автор: bintocher|19 марта 2026
AI-учёный через масштабирование синтетических задач
Зиян Цай — Принстонский университет Харкират Бехл — Microsoft Research С появлением AI-агентов автоматические научные открытия стали реальной целью. Многие недавние работы строят агентные системы для...
Автор: bintocher|19 марта 2026
Адверсариальные атаки на современные vision-language модели
Мы исследуем адверсариальную устойчивость open-source vision-language моделей (VLM — модели для совместной работы с изображениями и текстом), развёрнутых в изолированной e-commerce среде. Среда...
Автор: bintocher|19 марта 2026
VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах
Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: bintocher|19 марта 2026
BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний
Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: bintocher|19 марта 2026
В Meta не справляются с выходящими из-под контроля AI-агентами
Image Credits: Carol Yepes / Getty Images AI-агент в Meta вышел из-под контроля и открыл доступ к конфиденциальным данным компании и пользователей для сотрудников, не имевших на это прав. Как следует...
Автор: bintocher|19 марта 2026
Google Labs превратил Stitch в полноценную AI-платформу для дизайна интерфейсов
Google Labs развернул инструмент Stitch в полноценную платформу для проектирования ПО на базе ИИ. Инструмент генерирует пользовательские интерфейсы по текстовым описаниям на естественном языке. Этот...
Автор: bintocher|19 марта 2026
Аспиранты, ставшие судьями ИИ-индустрии
Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...
Автор: bintocher|18 марта 2026
Polly теперь доступна на всех страницах LangSmith
Отладка AI-агентов отличается от обычной. Трейсы (логи выполнения) уходят на сотни шагов вглубь. Промпты содержат тысячи строк. Когда что-то ломается, причина ошибки теряется посередине. Polly — это...
Автор: bintocher|18 марта 2026
Together AI расширяет сервис дообучения: поддержка tool calling, reasoning и работы с изображениями
При переходе от однократных запросов к сложным многошаговым workflow надёжность моделей ломается в предсказуемых местах. Tool-вызовы не соответствуют схемам. Качество reasoning (цепочек рассуждений)...
Автор: bintocher|18 марта 2026
Как инфраструктурный шум искажает оценки agentic-бенчмарков по коду
Agentic-бенчмарки (тесты, где модель действует как автономный агент) по написанию кода — SWE-bench и Terminal-Bench — стали стандартом для сравнения возможностей передовых моделей. Разрыв между...
Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало
Полгода я собирал идеальный CLAUDE.md. Вычитывал каждую строку: «используй yarn, не npm», «тесты запускай так», «структура проекта вот такая». 200 строк выстраданного контекста. Потом учёные из ETH...
Автор: bintocher|18 марта 2026
Code Review в Claude Code: многоагентная проверка каждого PR
Claude Code получает полноценную систему code review на базе команды агентов — по модели, которую мы используем в Anthropic. Доступно в research preview — раннем доступе для тестирования. Сегодня мы...
Автор: bintocher|18 марта 2026
Picsart запускает маркетплейс AI-агентов: теперь креаторы могут «нанять» ИИ-ассистентов
Дизайн-платформа Picsart, построенная вокруг ИИ, запускает маркетплейс AI-агентов, где креаторы могут «нанять» ИИ-ассистентов для конкретных задач — например, для ресайза и ремикса контента для...
Автор: bintocher|18 марта 2026
Настраиваем Cowork с помощью плагинов
Мы создавали Cowork, чтобы дать каждому возможность работать на полную мощность с Claude Code. Теперь мы добавили поддержку плагинов. Они позволяют объединять любые навыки, коннекторы (модули...
Автор: bintocher|18 марта 2026