Блог о разработке
Статьи о программировании, технологиях и анализе данных

Alibaba выпустила Qwen3.5-Omni — omnimodal-модель (работает с текстом, изображениями, аудио и видео как с единым потоком). По заявлению разработчиков, она обходит Gemini 3.1 Pro по аудиозадачам, а...

Xiaomi хочет создавать AI-агенты, которые сами управляют софтом, ходят по браузерам и в итоге будут управлять роботами. Чтобы дойти до этого, внутренняя команда MiMo сразу выпустила три модели....

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: bintocher|19 марта 2026