Polly теперь доступна на всех страницах LangSmith

Polly is generally available everywhere you work in LangSmith

Отладка AI-агентов отличается от обычной. Трейсы (логи выполнения) уходят на сотни шагов вглубь. Промпты содержат тысячи строк. Когда что-то ломается, причина ошибки теряется посередине.

Polly — это AI-ассистент. Он читает трейсы на 300 шагов, находит сбои и объясняет, что произошло. Сегодня Polly переходит в статус general availability (полная доступность для всех пользователей) в LangSmith.

Polly AI Assistant now generally available in LangSmith

Что изменилось

Раньше Polly работал только на отдельных страницах LangSmith — в трейсах, тредах (цепочках сообщений) и песочнице. Теперь мы расширили его доступность.

  • Polly есть на всех страницах LangSmith. Проекты, прогоны (запуски), треды, эксперименты, датасеты, очереди аннотаций, evaluators (модули оценки), playground — Polly доступен в правом нижнем углу любого экрана.
  • Polly помнит контекст разговора. Начали отлаживать трейс, переключились на эксперименты для сравнения прогонов, вернулись — Polly всё ещё помнит, с чем вы работали. Память между переходами устраняет неудобства при перемещении между экранами.
  • Polly умеет действовать. Помимо ответов на вопросы, Polly может обновить промпт, создать датасет из упавших прогонов, отфильтровать проект, написать код evaluator’а и сравнить эксперименты. По сути — это инженер в команде, к которому можно обратиться за практической помощью.

Где Polly особенно полезна

Следовать за проблемой куда бы она ни вела

Сложные задачи отладки не помещаются на одну страницу. Вы начинаете в трейсе, сравниваете с другим экспериментом, вытаскиваете пример в датасет, а затем правите промпт. Теперь Polly идёт по этому пути вместе с вами и сохраняет контекст от начала до конца.

В режиме тредов Polly эффективен при анализе переписки между пользователем и агентом. Вместо ручного чтения достаточно спросить:

  • «Похоже, пользователь раздражён?»
  • «С какими проблемами столкнулся пользователь?»
  • «Была ли решена проблема пользователя?»
  • «Какая основная тема этого треда?»

Анализ настроения пользователя в треде с помощью Polly

Polly отвечает с учётом всей беседы. Он помогает быстро понять настроение пользователя, исход разговора и паттерны взаимодействия.

Писать evaluator’ы быстрее и лучше

Polly помогает писать и дорабатывать логику evaluator’ов прямо в панели Evaluators. Попросите написать evaluator для проверки галлюцинаций (выдумок модели), повысить точность существующего или добавить обработку edge cases (нетипичных входных данных). Polly сгенерирует код, объяснит логику проверки и будет дорабатывать его вместе с вами. Меньше времени уходит на бойлерплейт (шаблонный код) — больше на то, что evaluator должен реально отлавливать.

Написание и улучшение evaluator'а с помощью Polly

Превращать результаты экспериментов в понятное решение

После запуска eval’а (оценки) спросите Polly, какой эксперимент лучше. Вы получите рекомендацию на основе реальных данных. Можно напрямую сравнить два прогона. Это помогает понять, какое изменение промпта, модели или архитектуры действительно даёт эффект. Не нужно разбирать каждый результат вручную.

Сравнение результатов экспериментов с помощью Polly

Как мы пришли к Polly

Прежде чем создать Polly, мы много работали с командами, разрабатывающими production-агентов (агентов для рабочей среды) на LangSmith. Одни и те же паттерны сбоев повторялись постоянно. Трейсы слишком длинные для ручного чтения, промпты слишком запутанные, а диалоги слишком разросшиеся для отслеживания.

Polly не заменяет инженерную оценку. Он берёт на себя рутину, которая вас замедляет. Polly знает, что вы сейчас смотрите, выполняет действия и остаётся с вами на всю сессию.

Как начать

Если вы уже работаете в LangSmith, Polly находится в правом нижнем углу. Открыть его можно через Cmd+I (Mac) или Ctrl+I (Windows/Linux) на любой странице.

Для работы с Polly добавьте API-ключ вашего провайдера моделей как workspace secret (переменную окружения уровня рабочего пространства). Это займёт пару минут. Инструкция в документации.

Если вы только знакомитесь с LangSmith, начните с настройки tracing (сбора логов выполнения). Как только данные появятся в LangSmith, Polly поможет понять, что происходит и как это улучшить.