Блог о разработке

Статьи о программировании, технологиях и анализе данных

Qwen3.5-Omni научился писать код по голосовым инструкциям и видео без специального обучения

Alibaba выпустила Qwen3.5-Omni — omnimodal-модель (работает с текстом, изображениями, аудио и видео как с единым потоком). По заявлению разработчиков, она обходит Gemini 3.1 Pro по аудиозадачам, а...

Тэги:qwen релиз ai/ml tts

Автор: bintocher|31 марта 2026

Xiaomi выпускает три модели MiMo: для агентов, роботов и голоса

Xiaomi хочет создавать AI-агенты, которые сами управляют софтом, ходят по браузерам и в итоге будут управлять роботами. Чтобы дойти до этого, внутренняя команда MiMo сразу выпустила три модели....

Тэги:релиз ai/ml агенты tts

Автор: 585108837|22 марта 2026

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...

Тэги:tts inference ai/ml исследование

Автор: bintocher|19 марта 2026