ServiceNow Research представляет EnterpriseOps-Gym: бенчмарк для оценки agentic-планирования в реальных корпоративных сценариях

Большие языковые модели (LLM) переходят от формата диалога к автономным агентам. Такие агенты способны выполнять сложные профессиональные workflows. Однако их реальное внедрение в корпоративной среде упирается в нехватку бенчмарков, учитывающих специфику таких задач. К ним относятся долгосрочное планирование, постоянные изменения состояния и строгие протоколы доступа.

Чтобы закрыть этот пробел, исследователи ServiceNow Research, Mila и Университета Монреаля создали EnterpriseOps-Gym. Это высоконадёжная изолированная тестовая среда (sandbox) для оценки agentic-планирования — планирования действий автономными ИИ-агентами — в реалистичных корпоративных сценариях.

EnterpriseOps-Gym Источник: arxiv.org/pdf/2603.13594

Среда оценки

EnterpriseOps-Gym развёрнут в контейнеризированной Docker-среде. Она симулирует восемь критически важных для бизнеса доменов:

  • Операционные домены: Customer Service Management (CSM), Human Resources (HR) и IT Service Management (ITSM).
  • Домены совместной работы: Email, Calendar, Teams и Drive.
  • Гибридный домен: кросс-доменные задачи, требующие координированного выполнения в нескольких системах.

Бенчмарк включает 164 реляционные таблицы БД и 512 функциональных инструментов. Средний показатель внешних ключей (foreign key) равен 1.7. Это означает высокую реляционную плотность: агентам приходится учитывать сложные межтабличные зависимости для сохранения целостности данных (referential integrity). В бенчмарке 1 150 экспертно составленных задач, средняя длина траектории выполнения — 9 шагов, максимум — 34.

Результаты: явный разрыв в возможностях

Исследователи протестировали 14 фронтовых моделей по метрике pass@1 — задача считается выполненной, только если с первой попытки проходят все SQL-верификаторы по результатам.

Модель Средний success rate (%) Стоимость за задачу (USD)
Claude Opus 4.5 37.4% $0.36
Gemini-3-Flash 31.9% $0.03
GPT-5.2 (High) 31.8% Не указано
Claude Sonnet 4.5 30.9% $0.26
GPT-5 29.8% $0.16
DeepSeek-V3.2 (High) 24.5% $0.014
GPT-OSS-120B (High) 23.7% $0.015

Даже лучшие из SOTA-моделей (лучших на сегодняшний день) не достигают 40% надёжности в таких структурированных средах. Результаты сильно зависят от домена. Лучше всего модели справляются с инструментами совместной работы (Email, Teams), но существенно проседают в доменах с жёсткими политиками — ITSM (28.5%) и Hybrid (30.7%).

Планирование против выполнения

Ключевой вывод исследования: стратегическое планирование, а не вызов инструментов, — основное узкое место производительности.

Исследователи провели «Oracle»-эксперименты, снабдив агентов планами, написанными людьми. Это дало прирост 14–35 процентных пунктов во всех моделях. Примечательно, что небольшие модели вроде Qwen3-4B при внешнем стратегическом рассуждении становились конкурентоспособны с моделями на порядок крупнее. При этом добавление отвлекающих («дистракторных») инструментов для симуляции ошибок поиска почти не повлияло на результат. Это подтверждает: поиск инструментов не является ограничивающим фактором.

Типичные ошибки и вопросы безопасности

Качественный анализ выявил четыре повторяющихся паттерна сбоев:

  1. Пропуск проверки предусловий: создание объектов без запроса необходимых предварительных данных, что приводит к записям без связей с другими таблицами.
  2. Каскадное распространение состояния: отсутствие необходимых последующих (follow-up) действий, требуемых политиками системы после изменения состояния.
  3. Некорректное разрешение ID: передача непроверенных или угаданных идентификаторов в вызовы инструментов.
  4. Галлюцинация досрочного завершения: объявление задачи выполненной до того, как пройдены все обязательные шаги.

Кроме того, агенты плохо справляются с безопасным отказом — корректным отказом от выполнения недопустимых запросов. Бенчмарк содержит 30 невыполнимых задач (нарушение правил доступа, работа с неактивными пользователями и т.д.). Лучшая модель, GPT-5.2 (Low), корректно отказалась выполнить такие задачи лишь в 53.9% случаев. В продовой среде невыполнение несанкционированного или невыполнимого запроса грозит повреждением БД и уязвимостями.

Оркестрация и мультиагентные системы (MAS)

Исследователи проверили, способны ли более сложные архитектуры агентов закрыть разрыв в производительности. Схема Planner+Executor (одна модель планирует, другая выполняет) дала скромный прирост. Однако более сложные декомпозиционные архитектуры (разбивающие задачу на части) чаще снижали результаты. В доменах CSM и HR задачи имеют жёсткие последовательные зависимости по состоянию. Разбиение их на подзадачи для отдельных агентов разрушает необходимый контекст и приводит к результатам хуже, чем простые ReAct-циклы (циклы «размышление-действие»).

Экономика: Pareto-фронтир

Для практического внедрения бенчмарк даёт чёткую картину компромисса между стоимостью и качеством (Pareto-фронтир — граница оптимальных соотношений, где улучшение качества требует непропорционального роста затрат):

  • Gemini-3-Flash — лучший практический выбор среди закрытых моделей: 31.9% при стоимости на 90% ниже, чем у GPT-5 или Claude Sonnet 4.5.
  • DeepSeek-V3.2 (High) и GPT-OSS-120B (High) — лидеры среди open-source: примерно 24% при ~$0.015 за задачу.
  • Claude Opus 4.5 — эталон абсолютной надёжности (37.4%), но при максимальной стоимости в $0.36 за задачу.

Главные выводы

  • Масштаб и сложность бенчмарка: EnterpriseOps-Gym предоставляет высоконадёжную среду оценки с 164 реляционными таблицами и 512 инструментами по восьми корпоративным доменам.
  • Значительный разрыв в производительности: текущие фронтовые модели ещё не готовы к автономному деплою — лучшая из них, Claude Opus 4.5, показывает лишь 37.4% success rate.
  • Планирование как главное узкое место: стратегическое рассуждение ограничивает результативность, а не выполнение инструментов; человеческие планы дают прирост 14–35 п.п.
  • Неудовлетворительный безопасный отказ: модели плохо распознают невыполнимые запросы — лучшая отказывается корректно лишь в 53.9% случаев.
  • Ограничения thinking budget: увеличение вычислений в момент выполнения запроса (test-time compute) даёт прирост в отдельных доменах, но в других результат выходит на плато. Больше «thinking»-токенов не компенсирует пробелы в понимании политик и доменных знаниях.

Статья | Код | Технические детали