BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с этой задачей. Проблема особенно видна, когда вопрос требует понимания предметной области, которое не прописано в тексте напрямую.

Авторы представляют BiomedSQL — первый бенчмарк (набор данных для тестирования моделей), созданный специально для оценки научного рассуждения. Он проверяет, как хорошо модели генерируют SQL-запросы по реальной биомедицинской базе знаний.

Что внутри

BiomedSQL содержит 68 000 наборов данных формата «вопрос / SQL-запрос / ответ». Они сгенерированы из шаблонов и привязаны к единой базе BigQuery. Эта база объединяет:

ассоциации «ген—заболевание»,
установление причинно-следственных связей из омических данных (данных о молекулярном составе организма),
записи об одобрении лекарств.

Ключевая особенность: каждый вопрос требует от модели учета специфичных для медицины критериев. Например, модели нужно самостоятельно задать пороги геномной значимости, определить направление эффекта или отфильтровать данные по фазе клинического испытания. Простого перевода слов в синтаксис SQL здесь недостаточно.

Результаты

Авторы протестировали несколько открытых и закрытых LLM. Использовались разные стратегии prompting (формирования текстовых запросов к модели) и способы взаимодействия. Результаты:

Gemini-3-Pro — 58.1% execution accuracy (доля запросов, выполненных без ошибок)
BMSQL (собственный многошаговый агент авторов) — 62.6%
Базовый результат эксперта — 90.0%

Разрыв существенный: даже лучший агент не дотягивает до уровня человека-эксперта.

Ресурсы

Работа принята на воркшопе Gen2 в рамках конференции ICLR 2026 (без публикации в официальном архиве). Сейчас статья проходит рецензирование.