Arena: аспиранты, ставшие судьями ИИ-индустрии

Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает?

Arena (ранее LM Arena) стала фактическим публичным лидербордом для ведущих LLM (больших языковых моделей). Эта платформа напрямую влияет на привлечение финансирования, запуски продуктов и PR-циклы компаний. Всего за семь месяцев стартап прошёл путь от исследовательского проекта аспирантов UC Berkeley до оценки в $1,7 млрд.

В новом выпуске подкаста TechCrunch Equity Ребекка Беллан поговорила с сооснователями Arena — Анастасиосом Ангелопулосом и Вэй-Лином Чиангом. Главный вопрос: как команде такого масштаба строить нейтральный бенчмарк (стандартизированный тест для оценки моделей), когда компании, которые они ранжируют, одновременно являются их инвесторами?

Ключевые темы разговора:

Как устроена Arena — и почему её создатели утверждают, что её невозможно накрутить, в отличие от статических бенчмарков с фиксированным набором задач.
Что такое «структурная нейтральность» — и является ли принятие денег от OpenAI, Google и Anthropic конфликтом интересов.
Выход за рамки чата — как Arena с новым enterprise-продуктом переходит к бенчмаркам для AI-агентов (программ, которые самостоятельно выполняют цепочки действий), написания кода и реальных задач.
Почему Claude побеждает в экспертном лидерборде по юридическим и медицинским задачам.
Ставка на пост-LLM-эру — почему AI-агенты — следующая категория на лидерборде.

Слушайте полный выпуск на YouTube, Apple Podcasts, Spotify и Overcast. Подкаст также доступен на X и Threads (@EquityPod).