NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

Аннотация

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик и надёжных референсов. Чтобы закрыть этот пробел, мы предлагаем NV-Bench — первый бенчмарк, основанный на функциональной таксономии. Она рассматривает NV как коммуникативные акты, а не просто побочные акустические эффекты. NV-Bench содержит 1 651 многоязычных референса из реальных записей с парным человеческим аудио, сбалансированных по 14 категориям NV.

Мы вводим двухмерный протокол оценки:

Instruction Alignment — с предложенной paralinguistic character error rate (PCER, коэффициент ошибок в паралингвистических символах) для оценки управляемости.
Acoustic Fidelity — измерение распределительного разрыва с реальными записями для оценки акустического реализма.

Мы оцениваем различные TTS-модели и разрабатываем два базовых решения. Результаты показывают сильную корреляцию наших объективных метрик с человеческим восприятием. Это закрепляет за NV-Bench роль стандартизированного фреймворка оценки.

Ключевые слова: Speech benchmark, Nonverbal vocalizations, Paralinguistic-aware ASR, Controllable TTS

Обзор NV-Bench.

Рисунок 1: Обзор NV-Bench. (1) Обработка данных: сырой аудио фильтруется через Emilia-Pipeline и MiMo-Audio. (2) Многоязычный NVASR: мы обучаем многоязычную NVASR-модель на open-source данных с унифицированной таксономией меток. (3) Оценка: после верификации людьми бенчмарк оценивается по измерениям instruction alignment и acoustic fidelity, а также по субъективным оценкам.

1. Введение

Современные выразительные TTS-модели всё чаще интегрируют невербальные вокализации (NV) для повышения естественности коммуникации. Текущие подходы добавляют NV либо в виде дискретных токенов (например, NVTTS), либо в виде перекрывающихся слоёв (например, CapSpeech). Но большинство методов относится к NV как к универсальным «звуковым эффектам», приписанным к лингвистическому содержимому. Такой подход упускает суть: NV — это не просто акустические текстуры, а коммуникативные акты. Они передают физиологические состояния, эмоции и намерения в диалоге. Для развития области нужно перейти от проверки наличия звука к оценке его уместности в контексте.

Чтобы систематизировать эти явления, мы опираемся на функциональную таксономию Batliner et al., разделяя NV на три уровня, критичных для выразительного TTS:

Вегетативные звуки — биологические рефлексы вроде дыхания и кашля, обеспечивающие физический реализм.
Аффективные всплески — эмоциональные вокализации, кратко передающие состояние говорящего или мгновенную реакцию.
Разговорные междометия — сигналы управления взаимодействием: заполнители пауз, просодические частицы, устраняющие неоднозначность (например, подтверждение или сомнение).

Эта таксономия показывает, что NV — это спектр нелексических, прагматически нагруженных вставок. Они необходимы для передачи эмоций и управления дискурсом.

Ряд крупных корпусов с NV уже появился: Emilia-NV, SMIIP-NV, NVTTS, DisfluencySpeech, NonverbalSpeech (NVS), SynParaSpeech. Но масштабирование тренировочных данных не даёт надёжного стандарта оценки. Текущие практики опираются на внутренние тестовые сеты или переписанные текстовые референсы вместо аутентичных парных записей. Без эталонных (ground-truth, GT) NV-записей оценка сводится к грубым проверкам (присутствие/отсутствие события). Это не позволяет измерить разрыв с реальным аудио. Кроме того, NV-события распределены с длинным хвостом — редкие категории встречаются намного чаще прочих. Несбалансированные тестовые сеты искажают агрегированные метрики и мешают честной диагностике.

Чтобы решить эти проблемы, мы представляем NV-Bench демо — комплексный бенчмарк для TTS с поддержкой NV. NV-Bench предоставляет публичный многоязычный тестсет из 1 651 высказывания. Они отобраны из онлайн-аудиовизуального контента 2025 года для минимизации утечки данных в тренировочные выборки. Для честного сравнения бенчмарк разбит на два подмножества: строго сбалансированное однометочное (50 примеров на категорию) и относительно сбалансированное многомечное с 14 типами NV. Все тестовые образцы содержат реальные NV с парным GT-аудио. Такая пара позволяет воспроизводимо оценивать instruction alignment через character error rate (CER) и его варианты. Acoustic fidelity оценивается через speaker similarity и fréchet distance (FD).

Основные вклады:

NV-Bench — первый комплексный фреймворк оценки TTS с поддержкой NV, с публичным датасетом из реальных записей и парным человеческим GT-аудио.
Стандартизированный и сбалансированный по распределению протокол оценки для честного и воспроизводимого сравнения моделей.
Масштабное тестирование state-of-the-art (SOTA) TTS-моделей, раскрывающее их управляемость, разборчивость и акустическую точность.

Таблица 1: Сравнение датасетов невербальных вокализаций.

Датасет	Язык	Тестсет	Баланс	Промпт
SynParaSpeech	zh	✗	–	–
NVS	zh/en	✗	–	–
Emilia-NV	zh	✗	–	–
NVTTS	en	✓	✗	✗
SMIIP-NV	zh	✓	✗	✗
NV-Bench	zh/en	✓	✓	✓

2. Методы

Для построения NV-Bench мы используем двухфазный пайплайн. Он балансирует акустическое разнообразие и точность меток. На первой фазе разрабатывается устойчивая многоязычная NVASR-модель для транскрипции с учётом невербальных событий. На второй фазе проводится курирование реального аудио через строгую фильтрацию с человеческой верификацией GT.

2.1. Многоязычный NVASR

Для эффективного построения бенчмарка мы разрабатываем многоязычную NVASR-модель (nonverbal vocalization automatic speech recognition — автоматическое распознавание речи с поддержкой невербальных вокализаций). Следуя методологии из Emilia-NV, мы файнтюним архитектуру SenseVoice-Small и расширяем фреймворк для многоязычных сценариев.

2.1.1. Архитектура модели

SenseVoice-Small выбрана как базовая модель благодаря предварительному обучению на разнообразных задачах понимания аудио. Это позволяет ей извлекать богатые акустические признаки. Модель оптимизируется минимизацией CTC-потери (connectionist temporal classification — функция потерь для выравнивания последовательностей без явной разметки границ):

ℒ_CTC = −ln ∑_{π∈ℬ⁻¹(𝐲)} P(π∣𝐱)

где 𝐱 — входные акустические признаки, 𝐲 — целевая последовательность, ℬ⁻¹(𝐲) — все валидные пути CTC-выравнивания для 𝐲.

2.1.2. Конструкция данных и нормализация меток

Для широкой генерализации мы объединяем комплексный тренировочный корпус: Emilia-NV, NVTTS, DisfluencySpeech, NVS, SMIIP-NV и MNV-17.

Чтобы справиться с разнородностью исходных меток, мы проводим систематическую нормализацию. Неречевые метки маппятся на уровень 3 онтологии AudioSet (иерархии звуковых событий от Google). При этом сохраняются дискретные события вроде [Laughter]. Мы принимаем таксономию Emilia-NV, но проводим целевую ручную аннотацию на английских подмножествах NVTTS и DisfluencySpeech. Это критически важно для различения нюансных прагматических функций, таких как [Question-huh], которых ранее не было в английских датасетах. Итоговая унифицированная таксономия — в таблице 2.

Таблица 2: Унифицированный инвентарь меток по коммуникативной функции.

Язык	Вегетативные звуки	Аффективные всплески	Разговорные междометия
Китайский	Breathing, Cough, Sigh	Laughter, Surprise-ah, Surprise-oh, Dissatisfaction-hnn	Uhm, Confirmation-en, Question-ei, Question-ah, Question-en, Question-oh
Английский	Breathing, Cough, Sigh	Laughter, Surprise-oh	Uhm, Question-huh

2.2. Конструкция бенчмарк-датасета

Надёжный NV-бенчмарк требует баланса между реализмом реальных записей и распределением меток. Датасет полностью курирован из веб-аудио через сложный фильтрующий пайплайн (рисунок 1).

2.2.1. Сбор данных

NV-события естественным образом распределены с длинным хвостом. Для достаточного покрытия таксономии мы собрали массивную коллекцию аудиовизуального контента, загруженного за последний год. Из исходного пула в 565 316 аудиоклипов (≈1 560 часов) мы отфильтровали сегменты-кандидаты с целевыми NV.

2.2.2. Пайплайн фильтрации

Для гарантии акустической точности и чистоты диктора кандидаты проходят строгую очистку:

Стандартизация аудио. Сначала Emilia-Pipeline используется для первичной стандартизации и разделения источников. Несмотря на встроенную диаризацию (автоматическое разделение речи по дикторам), многоспикерные сегменты часто сохраняются.

Проверка одного диктора. Для устранения остаточных артефактов мы разворачиваем MiMo-Audio-7B-Instruct — SOTA аудио-LLM. Она детектирует тонкие перекрытия дикторов, пропущенные при первичной диаризации. Сохраняются только подтверждённо чистые однодикторские высказывания.

Человеческая верификация. На финальном этапе десять экспертов-аннотаторов проверяют и корректируют транскрипции от NVASR. Они валидируют прагматическую корректность NV-меток. Для консистентности 5% данных перекрёстно аннотировано — Cohen’s kappa (метрика согласованности оценщиков) выше 0.85. Итог — 1 651 пара промпт/GT (7.9 часов), стандартизированных в MP3 при 24 кГц.

3. NV-Bench

Несмотря на рост числа TTS-систем с поддержкой NV, в области нет стандартизированного бенчмарка. Без него невозможно разделить два типа ошибок: (i) неспособность сгенерировать целевое событие, (ii) генерация низкокачественного или неестественного аудио. NV-Bench оценивает системы по двум измерениям:

Instruction Alignment — способность модели строго следовать текстовому промпту. Оценивается, генерирует ли система целевые NV-события в точных лингвистических позициях без пропусков и галлюцинаций.

Acoustic Fidelity — реализм относительно реальных записей. Измеряется распределительный разрыв, консистентность тембра и качество восприятия.

Для проверки этих возможностей при разной сложности NV-Bench структурирован в два многоязычных подмножества:

Однометочное подмножество — строго сбалансированный тестсет. Каждое высказывание содержит ровно одно NV-событие (50 примеров на категорию, 650 китайских и 350 английских). Это изолирует базовые генеративные возможности.

Многомечное подмножество — более сложный набор. Высказывания содержат несколько (2+) NV-событий для проверки устойчивости при плотных паралингвистических условиях. Учитывая длиннохвостовое распределение совместных встречаемостей, обеспечивается относительный баланс. Китайский: 41–91 пример на метку, английский: 75–112. Это даёт достаточное покрытие всех типов событий при отражении реальной сложности.

Таблица 3: Сравнение CER и OCER (%) по тестсетам, значения в скобках — OCER, остальные — CER.

Датасет	SV	Qwen2.5-Omni	NVASR
WS-net	5.77	20.14	5.55
LS-other	12.79	23.35	9.90
SMIIP-NV	3.12	3.59 (4.17)	1.29 (1.36)
NVTTS	14.45	21.69 (26.95)	13.52 (16.10)

Таблица 4: Детальные результаты по каждому подмножеству NV-Bench. Жирный — лучший в столбце, подчёркнутый — второй. Первые пять столбцов — однометочное подмножество (Alignment: CER, PCER, OCER; Fidelity: SIM, DNSMOS), последние пять — многомечное (Alignment: CER, PCER, OCER; Fidelity: SIM, DNSMOS).

Система	CER (%)	PCER (%)	OCER (%)	SIM	DNSMOS	CER (%)	PCER (%)	OCER (%)	SIM	DNSMOS
Китайский
GT	3.86	9.38	4.07	0.781	3.12	3.79	23.71	5.07	0.794	3.12
Orpheus-TTS	11.36	88.77	13.91	-	3.43	19.83	84.85	24.38	-	3.40
SMIIP-NV-CV2	8.80	75.64	11.34	0.719	3.22	10.66	77.20	14.79	0.715	3.07
Emilia-NV-CV2	5.05	40.00	6.64	0.740	3.21	5.54	48.74	8.09	0.746	3.24
CosyVoice3	3.85	57.69	5.86	0.764	3.30	4.75	61.94	8.26	0.715	3.31
NV-FlexiVoice	6.98	31.08	8.15	0.748	3.22	8.20	39.37	10.39	0.750	3.07
NV-CV3	3.80	27.69	4.90	0.768	3.29	3.44	30.04	4.84	0.776	3.29
Английский
GT	6.73	8.31	6.90	0.772	3.11	7.26	21.41	8.62	0.775	3.14
Orpheus-TTS	9.03	71.92	10.63	-	3.33	8.68	71.46	11.89	-	3.34
SMIIP-NV-CV2	17.92	56.80	19.47	0.583	2.97	20.93	54.49	23.87	0.580	2.97
Emilia-NV-CV2	12.50	55.30	13.21	0.639	3.21	11.71	60.28	14.63	0.655	3.26
CosyVoice3	7.87	62.75	9.06	0.701	3.27	6.39	57.84	10.69	0.715	3.31
NV-FlexiVoice	11.88	50.43	13.21	0.685	3.15	9.60	51.32	13.76	0.708	3.07
NV-CV3	8.33	46.13	9.44	0.698	3.24	6.70	47.13	10.10	0.721	3.30

4. Эксперименты

4.1. Эксперименты с многоязычным NVASR

Многоязычный NVASR выступает базовой моделью-оценщиком (backbone) в NV-Bench. Её нужно проверить как на стандартных ASR-тестсетах, так и на NV-специфичных.

4.1.1. Сетап и базовые модели

Мы сравниваем NVASR с двумя сильными базовыми моделями:

SenseVoice-Small (SV) — оригинальная ASR-модель до файнтюнинга, как базовый уровень общего распознавания речи.
Qwen2.5-Omni — 7B multimodal LLM с поддержкой понимания речи. Используется файнтюн-чекпоинт для NV-распознавания из MNV-17.

Оценка проводится на четырёх тестсетах: WenetSpeech test-net и LibriSpeech test-other для общего ASR; SMIIP-NV и NVTTS для NV-специфичной производительности.

4.1.2. Метрики оценки

Для совместной оценки лингвистической и паралингвистической точности мы расширяем стандартный CER до Overall CER (OCER):

OCER = (S + D + I) / (N_text + N_nvv) × 100%

где S, D, I — substitutions, deletions и insertions (замены, удаления и вставки), вычисленные по полной последовательности, включая NV-метки. N_text и N_nvv — количество текстовых символов и NV-символов соответственно.

4.1.3. Результаты

Как показано в таблице 3, наш многоязычный NVASR демонстрирует двойную компетентность. Во-первых, он сохраняет и даже незначительно улучшает качество транскрипции оригинальной SenseVoice на стандартных датасетах. Во-вторых, он значительно превосходит файнтюн-чекпоинт Qwen2.5-Omni в точности детекции и классификации NV-меток. На тестсете SMIIP-NV NVASR достигает 1.29% CER и 1.36% OCER, подтверждая свою надёжность как автоматического оценщика для NV-Bench.

Таблица 5: Оценка на полном NV-Bench.

Система	FAD	FD	IMOS	NMOS
GT	-	-	4.39 ± 0.18	4.39 ± 0.15
Orpheus-TTS	5.71	24.49	3.27 ± 0.23	3.53 ± 0.22
SMIIP-NV-CV2	1.32	6.71	3.28 ± 0.22	3.28 ± 0.19
Emilia-NV-CV2	1.08	5.57	3.89 ± 0.18	3.99 ± 0.14
CosyVoice3	0.90	9.46	3.56 ± 0.22	3.94 ± 0.20
NV-FlexiVoice	0.29	2.72	3.94 ± 0.23	4.00 ± 0.18
NV-CV3	0.86	3.94	3.95 ± 0.18	4.08 ± 0.16

4.2. Бенчмаркинг TTS-моделей с поддержкой NV

Мы проводим комплексную оценку на NV-Bench по двум измерениям. Instruction Alignment измеряет управляемость промптом и паралингвистическую разборчивость. Acoustic Fidelity оценивает распределительный разрыв, speaker similarity и перцептивное качество.

4.2.1. TTS-системы

Orpheus-TTS — однодикторская Llama-based 3B-модель с явным NV-контролем.
SMIIP-NV-CV2 и Emilia-NV-CV2 — две вариации 0.5B-модели CosyVoice2 (zero-shot TTS), файнтюненные соответственно на SMIIP-NV и Emilia-NV.
CosyVoice3 (CV3) — базовая zero-shot модель как сильный бейзлайн для общего синтеза речи.
NV-FlexiVoice — файнтюн 0.5B-модели FlexiVoice, предварительно обученной на Emilia без NV-событий.
NV-CV3 — референсный бейзлайн высокого уровня: файнтюн CV3 на объединённом корпусе.

4.2.2. Экспериментальный сетап

Конфигурация обучения. CV3 и FlexiVoice файнтюнятся на объединённом корпусе из Emilia-NV, SMIIP-NV, NVTTS, Disfluency и NVS. Нормализованные NV-метки инжектируются в текст как специальные управляющие символы. Оптимизация — AdamW (lr=1×10⁻⁵) на 4 NVIDIA A800.

Инференс. Все модели следуют протоколу нормализации меток. Для базовых моделей с ограниченной NV-поддержкой оценивается только пересечение поддерживаемых событий. Неподдерживаемые междометия (например, [Question-huh]) маппятся на ближайшие лексические эквиваленты с пунктуацией (например, «huh?»). Это позволяет аппроксимировать прагматическую функцию.

4.2.3. Метрики оценки

Instruction alignment. NVASR используется для вычисления CER, OCER и PCER. Для изоляции точности генерации NV PCER вычисляется только на извлечённых NV-символах: PCER = (S_nvv + D_nvv + I_nvv) / N_nvv. Здесь S_nvv, D_nvv, I_nvv — операции редактирования (замены, удаления, вставки) над NV, а N_nvv — целевое количество NV.

Acoustic Fidelity. Перцептивное качество и консистентность тембра измеряются через DNSMOS (метрика качества речи от Microsoft) и WavLM-based Speaker Similarity (SIM). Распределительный разрыв оценивается через Fréchet Audio Distance (FAD) и FD от PANNs (расстояние между распределениями аудиопризнаков).

Человеческая оценка. Десять аннотаторов оценивали по 100 высказываний на модель по 5-балльной шкале. Оценка проводилась по двум измерениям:

NMOS (Naturalness) — акустическая точность, просодическая непрерывность текст-NV и консистентность диктора.
IMOS (Instruction Accuracy) — точность исполнения NV без пропусков, галлюцинаций и ошибок произношения.

4.2.4. Результаты и анализ

Таблица 4 показывает результаты по китайскому и английскому подмножествам. По instruction alignment NV-CV3 достигает минимального PCER (27.69%) и OCER (4.90%) на китайском однометочном подмножестве. Это демонстрирует превосходную управляемость благодаря масштабным и диверсифицированным тренировочным данным.

По acoustic fidelity NV-CV3 сохраняет сильную консистентность тембра CV3, а Orpheus-TTS набирает высший балл DNSMOS. Таблица 5 показывает, что NV-FlexiVoice достигает минимальных FAD и FD. Сгенерированная речь и NV-события ближе всего к реальному распределению.

Субъективные оценки подтверждают эти результаты: NV-CV3 получает высшие NMOS и IMOS. Важно, что IMOS показывает значимую отрицательную корреляцию Спирмена с PCER (ρ=−0.65, p<0.001), а NMOS коррелирует с FD. Это валидирует надёжность объективных метрик NV-Bench.

5. Заключение

Мы представляем NV-Bench — первый комплексный бенчмарк для TTS-систем с поддержкой NV. Основанный на функциональной таксономии, бенчмарк содержит 1 651 многоязычных референса из реальных записей с парным человеческим ground-truth. Они сбалансированы по 14 категориям в однометочных и многомечных подмножествах. NV-Bench раздельно оценивает acoustic fidelity и instruction alignment, разделяя качество аудио и паралингвистическую управляемость. Масштабные эксперименты подтверждают, что наши объективные метрики сильно коррелируют с человеческими оценками. Это закрепляет за NV-Bench роль стандартизированного фреймворка оценки.

6. Раскрытие использования генеративного ИИ

LLM использовался исключительно для улучшения ясности и грамматики текста. Авторы проверили и отредактировали результат для обеспечения точности.