Блог о разработке

Статьи о программировании, технологиях и анализе данных

Qwen3.5-Omni научился писать код по голосовым инструкциям и видео без специального обучения
Alibaba выпустила Qwen3.5-Omni — omnimodal-модель (работает с текстом, изображениями, аудио и видео как с единым потоком). По заявлению разработчиков, она обходит Gemini 3.1 Pro по аудиозадачам, а...
Автор: bintocher|31 марта 2026
Xiaomi выпускает три модели MiMo: для агентов, роботов и голоса
Xiaomi хочет создавать AI-агенты, которые сами управляют софтом, ходят по браузерам и в итоге будут управлять роботами. Чтобы дойти до этого, внутренняя команда MiMo сразу выпустила три модели....
Автор: 585108837|22 марта 2026
NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech
Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: bintocher|19 марта 2026