AI Index 2026 от Стэнфорда: стремительный прогресс, проблемы безопасности и падение доверия 14 апреля 2026 г.
AI-модели уверенно описывают изображения, которых никогда не видели, а бенчмарки этого не замечают 31 марта 2026 г.
Qualcomm сжимает цепочки рассуждений ИИ в 2,4 раза, чтобы запустить «мыслящие» модели на смартфонах 21 марта 2026 г.
Инженеры Stripe запустили Minions — автономные агенты, генерирующие тысячи pull-requests в неделю 20 марта 2026 г.
Знакомство с Mamba-3: новое поколение State Space Model с вдвое меньшим состоянием и более эффективным MIMO-декодированием 20 марта 2026 г.
Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом 19 марта 2026 г.
GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре 19 марта 2026 г.
HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM 19 марта 2026 г.
M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен 19 марта 2026 г.
Мультимодальное мультиагентное обучение с подкреплением для генерации рентгеновских отчётов: рабочий процесс, подобный работе радиолога, с клинически верифицируемыми наградами 19 марта 2026 г.
NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech 19 марта 2026 г.
Omni IIE Bench: бенчмарк для оценки реальных возможностей моделей редактирования изображений 19 марта 2026 г.
ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях 19 марта 2026 г.
VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах 19 марта 2026 г.
Выявление скрытых стереотипов: мультиязычная оценка современных LLM через призму дебатов 19 марта 2026 г.
OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ 18 марта 2026 г.
ServiceNow Research представляет EnterpriseOps-Gym: бенчмарк для оценки agentic-планирования в реальных корпоративных сценариях 18 марта 2026 г.
Семантический поиск против полнотекстового: тестим три embedding-модели на 10 000 категорий Ozon 18 марта 2026 г.