M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен

В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт структурный «чертёж» для физической корректности, обеспечивает управляемость по смыслу и возможность интерактивного редактирования. Однако возможности текущих моделей генерации 3D-планировок интерьеров ограничены масштабом, разнообразием и качеством разметки существующих датасетов.

Чтобы закрыть этот пробел, исследователи из Университета Цинхуа, Пекинского университета авиации и космонавтики и Migu Beijing Research Institute представляют M3DLayout — крупномасштабный мультиисточниковый датасет для генерации 3D-планировок. В него входят 15 080 планировок и более 258 тыс. экземпляров объектов, собранных из трёх разных источников: реальных 3D-сканов, профессиональных CAD-проектов и процедурно сгенерированных сцен. Каждая планировка снабжена структурированным текстовым описанием. Оно отражает общую характеристику сцены, взаимное расположение крупной мебели и детальную расстановку мелких предметов.

https://graphic-kiliani.github.io/M3DLayout/

Датасет M3DLayout

Рисунок 1: Датасет M3DLayout — мультиисточниковый бенчмарк для генерации интерьерных 3D-сцен по текстовому описанию. Вверху: пример из датасета с детальной 3D-планировкой, размеченными bounding box’ами (прямоугольными оболочками объектов) и соответствующим структурированным описанием. Внизу слева: облако слов, иллюстрирующее разнообразие типов помещений, мебели и объектов. Внизу справа: общий обзор датасета — 15 080 сцен различных стилей.

Почему планировки критичны для 3D-генерации

Последние достижения в 3D-генеративном моделировании — от LucidDreamer и Text2Immersion до ATISS, SceneFormer и DiffuScene — демонстрируют впечатляющие результаты. Однако многие подходы генерируют сцены как неразделимый 3D-объём, где отдельные предметы нельзя выделить или изменить. Это ограничивает модульность и управляемость. Модели, учитывающие планировку (layout-aware), вроде CommonScenes и DiffuScene, склонны к созданию относительно простых сцен с малым числом типов объектов. А LLM-планировщики (LayoutGPT, HoloDeck, InstructScene) хорошо понимают естественный язык, но часто ошибаются в пространственной согласованности и физической корректности расстановки.

3D-планировка как промежуточное представление решает три задачи:

  • Структурная основа — задаёт позицию, ориентацию и масштаб объектов, обеспечивая логичную и функциональную расстановку.
  • Управление генерацией — сокращает степени свободы модели, снижая неоднозначность и позволяя точно контролировать результат.
  • Функциональность — отражает назначение реальных помещений, что критично для интерьерного дизайна, игровых уровней и имитации.

Авторы аргументируют, что главное узкое место (bottleneck) контролируемой генерации сцен — дефицит крупномасштабных датасетов с семантической разметкой и структурированными описаниями.

Обзор существующих датасетов

Ранние датасеты на основе 3D-сканов реальных сред — ScanNet, Matterport3D, SceneNN — обеспечивают точную геометрию. Но они страдают от шума, неполного покрытия объектов и отсутствия детальных аннотаций. Синтетические датасеты — SUNCG, 3D-FRONT, Structured3D — предлагают структурированные планировки с полными метаданными, но ограничены в разнообразии объектов и детализации. Гибридные подходы вроде FurniScene и OpenRooms частично решают эти проблемы. Но практически ни один датасет не предоставляет текстовых аннотаций, описывающих сценарий помещения, для условной генерации.

M3DLayout закрывает этот пробел, объединяя сканы, профессиональные проекты и процедурные планировки — и дополняя их структурированными текстовыми аннотациями.

Устройство датасета M3DLayout

Источники данных

M3DLayout строится на трёх типах источников. Каждый привносит уникальные характеристики:

Реальные 3D-сканы (Matterport3D). Отражают реалистичные, часто захламлённые пространственные расстановки. Список категорий объектов очищен: низкочастотные категории объединены или удалены. Сцены с менее чем двумя объектами отфильтрованы.

Профессиональные CAD-проекты (3D-FRONT). Характеризуются упорядоченной семантикой пространства и минималистичным дизайном. Объектов обычно немного, но расстановка структурно согласована. Применены фильтры для удаления нетипичных конфигураций.

Процедурно сгенерированные сцены (Inf3DLayout). Созданы с помощью Infinigen для систематического расширения разнообразия — особенно мелких декоративных предметов. Генератор настроен на пять основных типов помещений: спальни, гостиные, столовые, кухни и ванные. Дома программно разбивались на отдельные комнаты, затем отфильтровывались аномальные планировки.

Структурированные описания

Каждая планировка аннотирована описанием из трёх компонентов:

  1. Глобальное описание сцены — тип помещения, стилевые атрибуты, геометрические особенности, функциональное зонирование, симметрия.
  2. Описание крупной мебели — наличие и расположение основных предметов (обеденные столы, стеллажи, консоли), абсолютное позиционирование и относительные пространственные отношения.
  3. Описание мелких объектов — декоративные и функциональные предметы (посуда, вазы, книги, коробки), их размещение на поверхностях и паттерны распределения.

Пайплайн аннотирования различается по источникам. Для Matterport3D и Inf3DLayout рендерятся виды сверху, сбоку и крупным планом, после чего GPT-4o генерирует структурированные описания. Для 3D-FRONT применяется правило-ориентированный подход с шаблонами — благодаря более регулярным расстановкам в профессиональных проектах этого достаточно. Все описания проходят выборочную ручную проверку.

Пайплайн построения датасета M3DLayout

Рисунок 2: Пайплайн построения датасета M3DLayout. Интеграция данных из 3D-FRONT, Matterport3D и Infinigen: генерация и фильтрация планировок для Inf3DLayout, шаблонное формирование текста, рендеринг для VLM и создание структурированных описаний.

Статистика M3DLayout

Рисунок 3: Статистика M3DLayout. (a) Топ-15 самых частотных категорий объектов. (b) Распределение числа объектов на сцену. © Доля сцен от каждого источника.

Статистика

M3DLayout покрывает 26 категорий сцен, с акцентом на пять основных типов жилых помещений. Дополнительно включены офисы, прихожие, гардеробные, балконы, а также специализированные пространства — спортзал, библиотека, домашний кинотеатр.

Таблица 1: Количественный анализ трёх источников данных в M3DLayout.

Источник Сцены Всего объектов Среднее объектов/сцену Крупная мебель Мелкие объекты Доля мелких
3D-FRONT 5 754 39 494 6,9 39 407 87 0,2%
Matterport3D 1 684 21 212 12,6 12 859 8 353 39,4%
Inf3DLayout 7 642 197 707 25,9 57 125 140 582 71,1%
Итого 15 080 258 413 17,1 103 391 149 022 57,7%

Источники дополняют друг друга: 3D-FRONT даёт структурную регулярность, Matterport3D — реалистичность со сбалансированным распределением объектов, а Inf3DLayout радикально увеличивает сложность сцен и обилие мелких деталей (71,1% мелких объектов).

Таблица 2: Сравнение существующих датасетов интерьерных 3D-сцен, «L» и «S» — крупная и мелкая мебель соответственно.

Датасет Сцены Объекты Сбор планировок Сложность планировки Разнообразие размеров Структурированные описания
SUN3D 254 N/A Реальный скан Низкая N/A
SceneNN 100 N/A Реальный скан Низкая N/A
Matterport3D 1 684 N/A Реальный скан Средняя L-S
ScanNet 1 506 N/A Реальный скан Низкая L-S
Scan2CAD 1 506 N/A Реальный скан Низкая N/A
OpenRooms 1 068 97 607 Реальный скан Низкая N/A
SceneNet 57 3 699 Профессиональный Низкая N/A
Structured3D N/A N/A Профессиональный Низкая N/A
3D-FRONT 5 754 N/A Профессиональный Низкая L
M3DLayout 15 080 258 413 Микс Высокая L-S

Бенчмарк: генерация планировок по тексту

Для оценки датасета авторы построили бенчмарк на основе диффузионной модели условной генерации планировок. Диффузионная модель — это тип генеративной модели, которая постепенно «вырисовывает» результат из шума.

Постановка задачи

Каждый объект параметризуется как 3D oriented bounding box (прямоугольный параллелепипед с учётом поворота): o_i = (c_i, x_i, y_i, z_i, w_i, h_i, d_i, θ_i), где c_i — семантическая метка класса, (x_i, y_i, z_i) — центр объекта, (w_i, h_i, d_i) — ширина, высота и длина, θ_i — угол поворота в горизонтальной плоскости. Полная планировка x_0 = {o_i}_{i=1}^N генерируется через процесс обратной диффузии. Процесс идёт с условием на текстовое описание c^text.

Архитектура модели

В основе — U-Net с 1D-свертками и attention-механизмами. Текстовое условие передаётся через cross-attention (перекрёстное внимание между текстом и планировкой). К стандартной функции потерь (loss) на предсказание шума добавлен IoU loss — штраф за пересечение объектов.

Результаты

Таблица 3: Количественное сравнение методов генерации планировок и абляций (проверок по отдельным компонентам) модели на разных датасетах. Ниже FID/KID (×0.001) и выше CLIP-Score — лучше. FID (Fréchet Inception Distance) и KID (Kernel Inception Distance) — метрики расстояния между распределениями реальных и сгенерированных данных. FID и KID вычисляются относительно реальных планировок из 3D-FRONT, Matterport и Inf3DLayout.

Метод FID ↓ KID ↓ CLIP-Score ↑
3D-FRONT Matterport Inf3DLayout 3D-FRONT Matterport Inf3DLayout
DiffuScene 29,47 98,03 102,12 10,32 47,92 75,49 0,1982
InstructScene 68,58 100,54 159,27 54,70 49,23 156,62 0,1944
Ours (M3DLayout) 57,64 87,89 70,85 36,80 34,62 50,94 0,2001
Ours (3D-FRONT) 27,33 83,88 110,98 10,59 21,80 83,45 0,2083
Ours (Matterport) 81,31 69,61 114,58 46,82 18,41 94,45 0,1916
Ours (Inf3DLayout) 93,51 115,07 54,36 55,67 55,53 34,95 0,1969

Метод, обученный на полном M3DLayout, превосходит DiffuScene и InstructScene на 10–32% по FID/KID на референсных выборках Matterport и Inf3DLayout. Это демонстрирует существенно лучшую обобщающую способность. На 3D-FRONT метод немного уступает DiffuScene. Это объясняется тем, что модель генерирует более сложные сцены (>12 объектов). Из-за этого возникает расхождение в распределении сложности по сравнению с относительно простыми планировками 3D-FRONT (обычно 5–12 объектов). При этом по CLIP-Score метод обходит оба базовых метода, что подтверждает лучшую управляемость и соответствие промптам.

Качественное сравнение методов

Рисунок 5: Качественное сравнение методов на разных типах помещений. Сверху вниз: спальня, столовая, гостиная. Для каждого случая показаны промпт и сгенерированные планировки DiffuScene, InstructScene и предложенным методом. Обучение на M3DLayout даёт более детальные планировки, точнее следующие текстовому описанию.

Качественно: DiffuScene генерирует визуально аккуратные сцены, но не справляется с мелкими объектами и слабо следует промпту. InstructScene ошибается в пространственных отношениях, размещая объекты хаотично. Предложенный метод корректно размещает мелкие предметы (полки с деталями, шесть стульев у стола) и точно воспроизводит пространственные указания вроде «кровать расположена у угла стены».

Управление плотностью

Управление плотностью расстановки через промпт

Рисунок 4: Управление плотностью расстановки через промпт. Первая строка — входные промпты, отличающиеся только последним предложением (от минимальной к богатой детализации). Вторая строка — соответствующие результаты модели.

Модель адаптирует плотность объектов в зависимости от детализации описания — от минималистичной расстановки до насыщенной сцены с множеством предметов.

Абляция по источникам данных

Нижняя часть таблицы 3 показывает: модель, обученная на одном датасете, хорошо подстраивается под его распределение, но резко деградирует на других источниках. Например, модель на 3D-FRONT не справляется с реалистичными сканами (Matterport) и процедурными сценами (Inf3DLayout). Мультиисточниковый M3DLayout обеспечивает сбалансированную производительность по всем типам данных.

Пользовательское исследование

42 участника оценивали 15 сцен трёх типов помещений по шести метрикам (соответствие тексту, визуальное качество, богатство сцены, согласованность позиций и ориентаций, общее предпочтение) по шкале 1–5. Предложенный метод превзошёл оба базовых метода по большинству метрик — с наибольшим отрывом по «богатству сцены».

Результаты пользовательского исследования

Рисунок 6: Результаты пользовательского исследования. Сравнение по столовым, спальням и гостиным по шести метрикам: соответствие тексту (MT), визуальное качество (VQ), богатство сцены (SR), согласованность планировки по позициям (LC-P) и ориентациям (LC-O), общее предпочтение (OP).

Приложение

Детали реализации

Датасет разделён на 12 062 планировки для обучения и 3 018 для валидации. Для абляций использованы отдельные разделения (сплиты): 4 603/1 151 для 3D-FRONT, 1 347/337 для Matterport, 6 112/1 530 для Inf3DLayout. Во всех экспериментах использовался один и тот же набор из 1 500 промптов (по 500 для спальни, столовой и гостиной), сгенерированных GPT-4o. Обучение — 30k эпох, оптимизатор AdamW, learning rate 2×10⁻⁴, линейный noise schedule (расписание уровня шума по шагам генерации).

Статистика распределения объектов в M3DLayout

Рисунок 7: Статистика распределения объектов в M3DLayout. (a) Распределение по размеру (крупные/мелкие) по источникам. (b) Общий топ-20 категорий. (c–d) Отдельно для крупной и мелкой мебели.

Примеры из датасета

Рисунок 8: Примеры из датасета. Первая строка — CAD-проекты (3D-FRONT), вторая — реальные сканы (Matterport3D), третья — процедурные сцены (Infinigen).

Сгенерированные планировки модели

Рисунок 9: Сгенерированные планировки модели, обученной на M3DLayout — случайно выбранные спальни, гостиные и столовые.

Пайплайн извлечения объектов

Для визуализации и вычисления метрик (FID, KID, CLIP-Score) разработан пайплайн layout-to-scene (преобразование планировки в полноценную 3D-сцену). По bounding box’ам сгенерированной планировки из базы 95 категорий объектов подбираются наиболее подходящие 3D-ассеты. База создана через Text-to-3D модель TRELLIS. Подбор идёт по совпадению формы, категории и пропорций.

Процесс извлечения объектов из планировки

Рисунок 10: Процесс извлечения объектов из планировки. Схема подбора 3D-объектов на основе сгенерированных bounding box’ов.

Визуализация извлечённых сцен

Рисунок 11: Визуализация извлечённых сцен. Первая строка — рендеринг с однотонными материалами (для объективной оценки метриками). Вторая строка — рендеринг с оригинальными текстурами.

Таблица 4: Список категорий извлекаемых объектов. База извлечения включает 95 объектов, покрывающих практически все распространённые предметы интерьера.

Категория Объекты (95 всего)
Освещение lighting, ceiling_lamp, pendant_lamp, floor_lamp, desk_lamp, fan
Столы table, coffee_table, console_table, corner_side_table, round_end_table, dining_table, dressing_table, side_table, nightstand, desk, tv_stand
Сиденья seating, chair, armchair, lounge_chair, chinese_chair, dining_chair, dressing_chair, stool, sofa, loveseat_sofa, l_shaped_sofa, multi_seat_sofa
Кровати bed, kids_bed
Полки и хранение книг shelf, shelving, large_shelf, cell_shelf, bookshelf, book, book_column, book_stack, nature_shelf_trinkets
Шкафы и гардеробы cabinet, kitchen_cabinet, children_cabinet, wardrobe, wine_cabinet
Техника и электроника appliances, microwave, oven, beverage_fridge, tv, monitor, tv_monitor
Кухня и посуда pan, pot, plate, bowl, cup, bottle, can, jar, wineglass, chopsticks, knife, fork, spoon, food_bag, food_box, fruit_container
Сантехника bathtub, shower, sink, standing_sink, toilet, toilet_paper, toiletry, faucet, towel
Двери, окна и занавески glass_panel_door, lite_door, window, blinds, curtain, vent
Фурнитура и управление hardware, handle, light_switch
Декор plant, large_plant_container, plant_container, vase, wall_art, picture, mirror, statue, basket, balloon, cushion, rug, decoration
Контейнеры и отходы bag, box, container, clutter, trashcan
Архитектурные элементы counter, fireplace, pipe, furniture
Одежда clothes
Пространства kitchen_space
Спорт и прочее gym_equipment