ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях

LLM-агенты всё чаще работают в постоянных реальных ролях и сталкиваются с непрерывным потоком задач. Ключевое ограничение: агенты не умеют учиться на накопленном опыте. Они вынуждены отбрасывать ценную информацию и повторять прошлые ошибки. Исследователи из Google Cloud AI Research, Йельского университета и UIUC предлагают ReasoningBank — фреймворк памяти. Он дистиллирует (выделяет суть) обобщаемые стратегии рассуждений из успешного и провального опыта самого агента.

Рисунок 1: ReasoningBank извлекает переиспользуемые стратегии рассуждений, делая элементы памяти переносимыми на будущие задачи. Это позволяет агентам непрерывно эволюционировать и достигать более высокой совокупной успешности по сравнению с базовой моделью без памяти на подмножестве WebArena-Admin.

Проблема

Современные LLM-агенты решают задачи изолированно: каждый запрос обрабатывается независимо, без учёта предыдущего опыта. Существующие подходы к памяти агентов хранят либо сырые логи действий (trace-based), либо только успешные шаблоны (workflow-based). У обоих подходов два недостатка. Они не выделяют высокоуровневые переносимые паттерны рассуждений. Также они игнорируют уроки из собственных провалов.

ReasoningBank

ReasoningBank извлекает из прошлого опыта структурированные элементы памяти — не сырые логи, а абстрактные принципы и стратегии. Каждый элемент состоит из трёх компонентов:

Заголовок — краткий идентификатор стратегии
Описание — одно предложение о сути
Содержимое — выделенные шаги рассуждений, мотивы решений и операционные инсайты

Рисунок 2: Обзор ReasoningBank. Опыт дистиллируется в структурированные элементы памяти. Для каждой новой задачи агент извлекает релевантные элементы, а после выполнения строит новые из успешных и провальных траекторий, замыкая цикл.

Работа фреймворка строится по замкнутому циклу из трёх этапов:

Извлечение памяти — после завершения задачи LLM выступает в роли судьи (LLM-as-a-judge). Он классифицирует траекторию как успешную или провальную без доступа к эталонному ответу (ground truth). Из успешных извлекаются валидированные стратегии. Из провальных — контрфактические сигналы и описания ловушек.
Поиск памяти — при новой задаче агент ищет топ-k релевантных элементов. Поиск идёт через семантическое сравнение векторных представлений (embedding-based similarity search). Найденные элементы внедряются в системный промпт.
Консолидация — новые элементы добавляются в пул памяти, обеспечивая непрерывную эволюцию.

MaTTS: масштабирование с учётом памяти

Test-time scaling (TTS) — приём повышения качества LLM за счёт дополнительных вычислений на этапе генерации ответа (инференсе). Авторы интегрируют TTS с ReasoningBank в подходе MaTTS (Memory-aware Test-Time Scaling). Он реализован в двух вариантах.

Рисунок 3: Сравнение (a) vanilla TTS и MaTTS с (b) параллельным масштабированием, где self-contrast по нескольким траекториям курирует надёжную память, и (c) последовательным масштабированием, где self-refinement обогащает память промежуточными сигналами.

Параллельное масштабирование — генерируется несколько траекторий для одной задачи под управлением памяти. Агент сравнивает их между собой (self-contrast). Это позволяет выделить устойчивые паттерны и отфильтровать случайные решения.

Последовательное масштабирование — агент итеративно уточняет рассуждения внутри одной траектории (self-refinement). Промежуточные заметки служат сигналами для памяти. Они фиксируют попытки, коррекции и инсайты, которых нет в финальном решении.

Ключевая идея: качественная память направляет масштабирование на перспективные пути, а богатый опыт от масштабирования формирует ещё более сильную память — образуется положительная обратная связь.

Результаты

Эксперименты проводились на WebArena, Mind2Web и SWE-Bench-Verified. В качестве базовых моделей (backbone) использовались Gemini-2.5 и Claude-3.7-Sonnet.

ReasoningBank против базовых подходов

Таблица 1: Результаты на WebArena. SR (↑) — успешность, Step (↓) — количество шагов.

Модели	Shopping (187)		Admin (182)		Gitlab (180)		Reddit (106)		Multi (29)		Overall (684)
	SR	Step	SR	Step	SR	Step	SR	Step	SR	Step	SR	Step
Gemini-2.5-flash
No Memory	39.0	8.2	44.5	9.5	33.9	13.3	55.7	6.7	10.3	10.0	40.5	9.7
Synapse	40.6	7.0	45.1	9.1	35.6	13.0	59.4	6.5	10.3	10.5	42.1	9.2
AWM	44.4	7.0	46.7	8.8	37.2	13.2	62.3	6.1	3.4	7.7	44.1	9.0
ReasoningBank	49.7	6.1	51.1	8.2	40.6	12.3	67.0	5.6	13.8	8.8	48.8	8.3
Gemini-2.5-pro
No Memory	45.5	7.6	51.1	8.7	35.0	11.6	71.7	6.0	6.9	8.8	46.7	8.8
Synapse	46.5	6.6	52.2	8.9	38.3	11.3	68.9	5.9	6.9	9.0	47.7	8.5
AWM	48.1	6.4	49.3	9.8	40.0	11.2	68.9	6.4	3.4	9.3	47.6	8.7
ReasoningBank	51.9	6.0	56.6	7.7	44.4	9.8	80.2	5.1	13.8	8.2	53.9	7.4
Claude-3.7-sonnet
No Memory	38.5	6.1	49.5	8.4	36.7	10.6	53.8	5.5	0.0	11.6	41.7	8.0
Synapse	39.6	5.8	50.5	8.5	38.0	10.0	53.8	6.1	0.0	11.8	42.6	7.9
AWM	39.6	7.2	47.8	9.3	34.6	10.9	52.8	7.0	0.0	12.4	40.8	8.9
ReasoningBank	44.9	5.6	53.3	7.6	41.1	9.5	57.5	5.2	3.4	10.5	46.3	7.3

ReasoningBank стабильно превосходит базовые модели на всех датасетах и с разными базовыми моделями. На WebArena общий прирост успешности составляет +8.3, +7.2 и +4.6 для трёх разных LLM по сравнению с агентами без памяти.

Таблица 2: Результаты на SWE-Bench-Verified.

Методы	Resolve Rate	Step
Gemini-2.5-flash
No Memory	34.2	30.3
Synapse	35.4	30.7
ReasoningBank	38.8	27.5
Gemini-2.5-pro
No Memory	54.0	21.1
Synapse	53.4	21.0
ReasoningBank	57.4	19.8

Таблица 3: Результаты на Mind2Web для cross-task, cross-website и cross-domain обобщения. EA (↑) — element accuracy, AF₁ (↑) — action F₁, SSR (↑) — step success rate, SR (↑) — task-level success rate.

Модели	Cross-Task (252)				Cross-Website (177)				Cross-Domain (912)
	EA	AF₁	SSR	SR	EA	AF₁	SSR	SR	EA	AF₁	SSR	SR
Gemini-2.5-flash
No Memory	46.0	59.1	40.3	3.3	39.8	45.1	31.7	1.7	35.8	37.9	31.9	1.0
Synapse	47.0	59.5	41.2	3.5	40.3	46.0	32.1	1.9	36.3	38.5	32.4	1.1
AWM	46.3	56.1	41.0	3.5	39.1	42.2	31.7	2.1	33.3	36.5	30.1	0.7
ReasoningBank	52.1	60.4	44.9	4.8	44.3	52.6	33.9	2.3	40.6	41.3	36.6	1.6
Gemini-2.5-pro
No Memory	49.3	60.2	44.4	3.5	41.2	49.8	34.8	3.4	37.9	37.7	35.0	1.4
Synapse	50.1	61.0	44.7	3.6	41.8	51.2	35.0	3.2	38.5	39.8	35.6	1.5
AWM	48.6	61.2	44.4	3.7	41.9	47.9	34.8	2.3	37.3	38.1	34.4	1.2
ReasoningBank	53.6	62.7	45.6	5.1	46.1	54.8	36.9	3.8	42.8	45.2	38.1	1.7

Особенно заметен прирост на подмножестве WebArena-Multi, требующем переноса памяти между несколькими сайтами: ReasoningBank даёт средний прирост +4.6 по SR, тогда как AWM в этом сценарии деградирует.

Эффективность

Помимо роста успешности, ReasoningBank сокращает количество шагов взаимодействия. На WebArena среднее снижение — до 1.4 шага по сравнению с «No Memory» и 1.6 шага по сравнению с другими механизмами памяти. На SWE-Bench-Verified экономия составляет 2.8 и 1.3 шага соответственно.

Результаты MaTTS

Рисунок 4: Влияние фактора масштабирования k для MaTTS с ReasoningBank на WebArena-Shopping: (a) параллельное и (b) последовательное test-time scaling.

Эксперименты с Gemini-2.5-flash на WebArena-Shopping показывают:

Параллельное масштабирование: рост с 49.7 (k=1) до 55.1 (k=5) с MaTTS против 39.0–42.2 без памяти.
Последовательное масштабирование: рост с 49.7 до 54.5 с MaTTS против 37.4–40.6 без памяти.
MaTTS стабильно превосходит базовое масштабирование без улучшений (vanilla TTS). При k=5 параллельное масштабирование даёт 55.1 против 52.4. Последовательное — 54.5 против 51.9.
При сильной памяти (ReasoningBank) последовательное масштабирование даёт больший прирост при малых k, но быстро насыщается. Параллельное продолжает расти на больших k.

Синергия памяти и масштабирования

Рисунок 5: Срез MaTTS на WebArena-Shopping с разными механизмами памяти при k=3. BoN — лучший из 3 траекторий, Pass@1 — случайная траектория.

Двунаправленное взаимодействие между памятью и масштабированием:

Лучшая память → сильнее масштабирование: без памяти лучший из N вариантов (BoN, Best-of-N) растёт с 39.0 до 40.6. С Synapse — до 42.8. С AWM — до 45.5. С ReasoningBank — до 52.4.
Масштабирование → лучшая память: у слабых механизмов памяти масштабирование снижает успешность с первой попытки (Pass@1). Для Synapse показатель падает с 40.6 до 40.1, для AWM — с 44.4 до 41.2. Дополнительные траектории вносят шум. ReasoningBank — единственный метод, где Pass@1 растёт (с 49.7 до 50.8).

Анализ

Эмерджентное поведение

Рисунок 6: Пример эмерджентного поведения в ReasoningBank: элементы памяти эволюционируют от процедурных стратегий к композиционным.

Стратегии в ReasoningBank не статичны. Они эволюционируют во времени, напоминая динамику обучения с подкреплением (RL). Эволюция одного элемента памяти проходит через четыре стадии:

Процедурные стратегии — агент следует прямолинейным правилам (например, «найти навигационные ссылки»)
Адаптивная саморефлексия — перепроверка идентификаторов для снижения ошибок
Адаптивные проверки — системное использование поиска и фильтров для полноты результатов
Композиционные стратегии — перекрёстная проверка требований задачи и переоценка вариантов

Роль провальных траекторий

Рисунок 7: Абляция: влияние добавления провальных траекторий для индукции памяти.

Базовые решения (baselines) вроде Synapse и AWM строят память только из успешных траекторий. Они не умеют извлекать пользу из провалов. При добавлении провалов Synapse растёт минимально (40.6 → 41.7), а AWM деградирует (44.4 → 42.2). ReasoningBank достигает 46.5 только на успешных траекториях и 49.7 с добавлением провалов. Провалы превращаются в конструктивные сигналы, а не в шум.

Эффективность: успешные vs провальные случаи

Разделение анализа на успешные и провальные тестовые случаи даёт интересный результат. ReasoningBank сокращает шаги прежде всего на успешных случаях — до 2.1 шага (26.9% относительного снижения). На провальных случаях экономия составляет 0.2–1.4 шага. Это означает, что память помогает агенту находить решения за меньшее число взаимодействий, а не просто обрывать неудачные попытки.

Детали реализации

Извлечение памяти

Для извлечения элементов используется LLM с температурой 1.0. Это та же базовая модель, что и у агента. Из каждой траектории извлекается максимум 3 элемента в формате Markdown с полями title, description, content. Для классификации успешности применяется LLM-as-a-judge с температурой 0.0.

Рисунок 8: Системные инструкции для извлечения памяти: левая панель — для успешных траекторий, правая — для провальных.

Рисунок 9: Промпт для LLM-as-a-judge: получение бинарного сигнала успешности траектории.

Поиск и консолидация

Запросы преобразуются в векторы (эмбеддятся) через gemini-embedding-001. Поиск идёт по косинусному сходству (cosine similarity). По умолчанию k=1 — дополнительные опыты показывают, что увеличение количества извлекаемых элементов снижает результат (49.7 при k=1, 46.0 при k=2, 44.4 при k=4). Консолидация минимальна. Новые элементы просто добавляются в пул без удаления старых (pruning). Это сделано, чтобы изолировать эффект качества контента.

Рисунок 12: Абляция по количеству извлекаемых элементов памяти.

Промпты для MaTTS

Рисунок 10: Промпты для MaTTS: левая панель — параллельное масштабирование (self-contrast), правая — последовательное (self-refinement).

В параллельном режиме модель сравнивает несколько траекторий одной задачи, выявляя паттерны успеха и ошибки. В последовательном — итеративно перепроверяет траекторию без внешнего арбитра.

Примеры из практики

Рисунок 14: ReasoningBank помогает агенту вспомнить прошлые подсказки о рассуждениях и найти полную историю заказов, тогда как базовая модель ограничивается таблицей «Recent Orders».

Рисунок 15: ReasoningBank сокращает навигацию с 29 до 10 шагов за счёт переиспользования рассуждений о фильтрации категорий.

Рисунок 13: Pass@k при параллельном масштабировании с ReasoningBank: MaTTS достигает 62.1 при k=5 против 52.4 без памяти.

Ограничения и перспективы

Фокус на контенте памяти. Работа концентрируется на том, что хранить и переиспользовать. Архитектура памяти (например, эпизодическая или иерархическая) не рассматривается. Исследование их комбинации — перспективное направление.

Простота поиска и консолидации. Применён намеренно простой поиск по векторам без адаптивной маршрутизации. Консолидация минимальна. Это сделано для изоляции эффекта качества контента. Более сложные стратегии совместимы с фреймворком.

Зависимость от LLM-as-a-judge. Автоматическая разметка успешности может вносить шум при неоднозначных задачах. Будущие работы могут усилить верификацию через ансамблевые оценки или привлечение человека к проверке (human-in-the-loop).

Среди перспективных направлений — композиционная память (комбинирование элементов в высокоуровневые макросы) и послойные архитектуры памяти (эпизодическая для контекста задачи, рабочая для сессии, долгосрочная с политиками забывания). Философия ReasoningBank совместима со всеми этими подходами.

Итог

ReasoningBank показывает, что память на основе выделенных стратегий рассуждений создаёт новое измерение масштабирования для AI-агентов. Причём стратегии извлекаются из обоих исходов — как из успехов, так и из провалов. В связке с MaTTS это формирует самоподкрепляющийся цикл: память направляет масштабирование на перспективные пути, а масштабирование обогащает память контрастными сигналами. Результат — агенты, которые не просто решают задачи, а непрерывно эволюционируют, развиваясь от простых процедурных действий до композиционных стратегий рассуждений.