Как измерять прогресс к AGI: когнитивный фреймворк

Artificial General Intelligence (AGI) способен ускорить научные открытия и помочь в решении ключевых проблем человечества. Но понять, насколько мы близки к этой точке, сложно. Не хватает практических инструментов для оценки общего интеллекта систем. Отслеживать прогресс к AGI предстоит разными методами. Когнитивная наука — одна из важных частей этой головоломки.

Поэтому мы публикуем новую статью — «Measuring Progress Toward AGI: A Cognitive Taxonomy». Она задаёт научную основу для понимания когнитивных возможностей ИИ-систем.

Several rectangles in lines diagonally across the image. Each rectangle has swirls.

Параллельно мы запускаем хакатон на Kaggle и приглашаем исследовательское сообщество помочь построить оценки, необходимые для воплощения фреймворка на практике.

Разбираем общий интеллект на части

Наш фреймворк опирается на десятилетия исследований в психологии, нейронауках и когнитивной науке. На их основе мы выстроили когнитивную таксономию — систему классификации способностей. Мы выделяем 10 ключевых когнитивных способностей, которые важны для общего интеллекта ИИ-систем:

Perception — извлечение и обработка сенсорной информации из окружения
Generation — создание выходных данных: текста, речи, действий
Attention — фокусировка когнитивных ресурсов на том, что важно
Learning — приобретение новых знаний через опыт и инструкции
Memory — хранение и извлечение информации с течением времени
Reasoning — построение корректных выводов через логическое умозаключение
Metacognition — знание о собственных когнитивных процессах и контроль над ними
Executive functions — планирование, торможение и когнитивная гибкость
Problem solving — поиск эффективных решений для задач в конкретных доменах
Social cognition — обработка и интерпретация социальной информации, адекватное реагирование в социальных ситуациях

Bubbles all connecting to the central bubble "Cognitive faculties". Each bubble list a cognitive faculty.

Чтобы оценить возможности ИИ по каждой из этих способностей, мы предлагаем трёхстадийный протокол. Он сравнивает производительность системы с человеческими возможностями:

Оценить ИИ-системы на широком наборе когнитивных задач, покрывающих каждую способность. Использовать отложенные тестовые множества (held-out test sets) — данные, которые модель не видела при обучении. Это предотвращает data contamination — попадание тестовых данных в обучающую выборку.
Собрать человеческие базовые показатели по тем же задачам от выборки взрослых, репрезентативной по возрасту, полу и другим демографическим признакам.
Наложить результаты каждой ИИ-системы на распределение человеческих результатов по каждой способности.

От теории к практике

Определение когнитивных способностей — важный первый шаг, но одного фреймворка недостаточно. Чтобы перевести теорию в практику, мы запускаем хакатон на Kaggle — «Measuring progress toward AGI: Cognitive abilities». Участникам предлагается разработать оценки для пяти когнитивных способностей, где сегодня наблюдается наибольший пробел: learning, metacognition, attention, executive functions и social cognition.

Участники могут использовать новую платформу Kaggle — Community Benchmarks. Она позволяет собирать и тестировать свои оценки на линейке frontier-моделей — самых современных и мощных ИИ-моделей.

Общий призовой фонд — $200 000: по $10 000 за две лучшие заявки в каждом из пяти треков и по $25 000 гран-при за четыре абсолютно лучших решения среди всех. Приём заявок открыт с 17 марта по 16 апреля, результаты объявим 1 июня. Заходите на сайт Kaggle и начинайте строить оценки.