Как измерять прогресс к AGI: когнитивный фреймворк
Artificial General Intelligence (AGI) способен ускорить научные открытия и помочь в решении ключевых проблем человечества. Но понять, насколько мы близки к этой точке, сложно. Не хватает практических инструментов для оценки общего интеллекта систем. Отслеживать прогресс к AGI предстоит разными методами. Когнитивная наука — одна из важных частей этой головоломки.
Поэтому мы публикуем новую статью — «Measuring Progress Toward AGI: A Cognitive Taxonomy». Она задаёт научную основу для понимания когнитивных возможностей ИИ-систем.

Параллельно мы запускаем хакатон на Kaggle и приглашаем исследовательское сообщество помочь построить оценки, необходимые для воплощения фреймворка на практике.
Разбираем общий интеллект на части
Наш фреймворк опирается на десятилетия исследований в психологии, нейронауках и когнитивной науке. На их основе мы выстроили когнитивную таксономию — систему классификации способностей. Мы выделяем 10 ключевых когнитивных способностей, которые важны для общего интеллекта ИИ-систем:
- Perception — извлечение и обработка сенсорной информации из окружения
- Generation — создание выходных данных: текста, речи, действий
- Attention — фокусировка когнитивных ресурсов на том, что важно
- Learning — приобретение новых знаний через опыт и инструкции
- Memory — хранение и извлечение информации с течением времени
- Reasoning — построение корректных выводов через логическое умозаключение
- Metacognition — знание о собственных когнитивных процессах и контроль над ними
- Executive functions — планирование, торможение и когнитивная гибкость
- Problem solving — поиск эффективных решений для задач в конкретных доменах
- Social cognition — обработка и интерпретация социальной информации, адекватное реагирование в социальных ситуациях

Чтобы оценить возможности ИИ по каждой из этих способностей, мы предлагаем трёхстадийный протокол. Он сравнивает производительность системы с человеческими возможностями:
- Оценить ИИ-системы на широком наборе когнитивных задач, покрывающих каждую способность. Использовать отложенные тестовые множества (held-out test sets) — данные, которые модель не видела при обучении. Это предотвращает data contamination — попадание тестовых данных в обучающую выборку.
- Собрать человеческие базовые показатели по тем же задачам от выборки взрослых, репрезентативной по возрасту, полу и другим демографическим признакам.
- Наложить результаты каждой ИИ-системы на распределение человеческих результатов по каждой способности.
От теории к практике
Определение когнитивных способностей — важный первый шаг, но одного фреймворка недостаточно. Чтобы перевести теорию в практику, мы запускаем хакатон на Kaggle — «Measuring progress toward AGI: Cognitive abilities». Участникам предлагается разработать оценки для пяти когнитивных способностей, где сегодня наблюдается наибольший пробел: learning, metacognition, attention, executive functions и social cognition.
Участники могут использовать новую платформу Kaggle — Community Benchmarks. Она позволяет собирать и тестировать свои оценки на линейке frontier-моделей — самых современных и мощных ИИ-моделей.
Общий призовой фонд — $200 000: по $10 000 за две лучшие заявки в каждом из пяти треков и по $25 000 гран-при за четыре абсолютно лучших решения среди всех. Приём заявок открыт с 17 марта по 16 апреля, результаты объявим 1 июня. Заходите на сайт Kaggle и начинайте строить оценки.
