Блог о разработке

Статьи о программировании, технологиях и анализе данных

TDMM-LM: как языковые модели объединили понимание и анимацию лиц

Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....

Тэги:llm исследование ai/ml

Автор: bintocher|19 марта 2026

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...

Тэги:tts inference ai/ml исследование

Автор: bintocher|19 марта 2026

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре

Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...

Тэги:llm qwen vllm исследование ai/ml

Автор: bintocher|19 марта 2026

HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM

Выравнивание (alignment) больших языковых моделей (LLM) с человеческими ценностями — критическое условие их безопасного развертывания. Однако jailbreak-атаки способны обойти эту защиту и заставить...

Тэги:llm исследование безопасность

Автор: bintocher|19 марта 2026

BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...

Тэги:исследование ai/ml llm агенты hugging face

Автор: bintocher|19 марта 2026

Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...

Тэги:ai/ml исследование inference

Автор: bintocher|19 марта 2026

Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров

Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...

Тэги:qwen ai/ml исследование hugging face