Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут систематические искажения, унаследованные от обучающих данных с западным культурным контекстом. Это создаёт дилемму для развития TTI-моделей на других языках.

Один из подходов — дообучение (fine-tuning) англоязычной модели на переведённых примерах. Но он лишь частично решает проблему искажений. Альтернатива — обучение модели с нуля на данных другого языка. Это устраняет англоязычный bias (смещение данных), но отрывает модель от экосистемы. Она перестаёт быть совместимой с инструментами и наработками английского TTI-сообщества.

Чтобы создать китайскую TTI-модель и сохранить совместимость с английским сообществом, авторы предлагают архитектуру Bridge Diffusion Model (BDM).

Архитектура

BDM использует структуру «базовая сеть — ветвь» (backbone-branch). Базовая часть отвечает за латентное пространство (внутреннее представление данных модели), совместимое с англоязычными TTI-моделями. Ветвь обучается на китайских семантиках (значениях слов и контекстах). Всё это работает end-to-end (модель обучается и применяется как единое целое, без промежуточных ручных этапов).

Что даёт BDM

  • Точная генерация изображений по китайским текстовым описаниям
  • Полная совместимость с инструментами англоязычной TTI-экосистемы: сохранениями весов моделей (checkpoint’ами), легковесными адаптерами (LoRA), модулями управления композицией (ControlNet), а также методами дообучения Dreambooth и Textual Inversion
  • Возможность комбинировать китайские и английские семантики в одном изображении. Например, генерировать сцены, где элементы обеих культур сосуществуют органично

Код проекта доступен на GitHub.

Статья принята как устный доклад на AAAI 2025 и опубликована в Proceedings of the 39th AAAI Conference on Artificial Intelligence, том 39, №5, стр. 5541–5549.