Блог о разработке

Статьи о программировании, технологиях и анализе данных

Как инфраструктурный шум искажает оценки agentic-бенчмарков по коду
Agentic-бенчмарки (тесты, где модель действует как автономный агент) по написанию кода — SWE-bench и Terminal-Bench — стали стандартом для сравнения возможностей передовых моделей. Разрыв между...