Блог о разработке

Статьи о программировании, технологиях и анализе данных

Xiaomi MiMo-V2-Pro: флагманская AI-модель с триллионом параметров
Компания Xiaomi представила MiMo-V2-Pro — флагманскую foundation-модель, оптимизированную для агентских рабочих нагрузок. Модель входит в топ-8 мирового рейтинга Artificial Analysis Intelligence...
Тэги:
Автор: 585108837|19 марта 2026
AI-учёный через масштабирование синтетических задач
Зиян Цай — Принстонский университет Харкират Бехл — Microsoft Research С появлением AI-агентов автоматические научные открытия стали реальной целью. Многие недавние работы строят агентные системы для...
Автор: 585108837|19 марта 2026
Адверсариальные атаки на современные vision-language модели
Мы исследуем адверсариальную устойчивость open-source vision-language моделей (VLM — модели для совместной работы с изображениями и текстом), развёрнутых в изолированной e-commerce среде. Среда...
Автор: 585108837|19 марта 2026
Omni IIE Bench: бенчмарк для оценки реальных возможностей моделей редактирования изображений
Yujia Yang, Yuanxiang Wang, Zhenyu Guan, Tiankun Yang, Chenxi Bao, Haopeng Jin, Jinwen Luo, Xinyu Zuo, Lisheng Duan, Haijin Liang, Jin Ma, Xinming Wang, Ruiwen Tao, Hongzhu Yi — University of Chinese...
Автор: 585108837|19 марта 2026
AgriChat: мультимодальная LLM для анализа сельскохозяйственных изображений
Irfan Hussain, Sajid Javed — Департамент компьютерных наук, Университет Халифа, Абу-Даби, ОАЭ Применение Multimodal Large Language Models (MLLM) в сельском хозяйстве упирается в критический...
Автор: 585108837|19 марта 2026
Мультимодальное мультиагентное обучение с подкреплением для генерации рентгеновских отчётов: рабочий процесс, подобный работе радиолога, с клинически верифицируемыми наградами
Kaito Baba, Satoshi Kodera Department of Cardiovascular Medicine, The University of Tokyo Hospital, Tokyo, Japan Мы предлагаем MARL-Rad — новый фреймворк мультимодального мультиагентного обучения с...
Автор: 585108837|19 марта 2026
M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен
В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...
Автор: 585108837|19 марта 2026
VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах
Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: 585108837|19 марта 2026
TDMM-LM: как языковые модели объединили понимание и анимацию лиц
Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....
Автор: 585108837|19 марта 2026
NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech
Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: 585108837|19 марта 2026
GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре
Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...
Автор: 585108837|19 марта 2026
YOLOv26: разбор NMS-Free end-to-end фреймворка для детекции объектов в реальном времени
Фреймворк YOLO («You Only Look Once») долгое время служил эталоном детекции объектов в реальном времени. Однако традиционные итерации (от YOLOv1 до YOLO11) ограничены задержками и чувствительностью к...
Автор: 585108837|19 марта 2026
HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM
Выравнивание (alignment) больших языковых моделей (LLM) с человеческими ценностями — критическое условие их безопасного развертывания. Однако jailbreak-атаки способны обойти эту защиту и заставить...
Автор: 585108837|19 марта 2026
BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний
Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: 585108837|19 марта 2026
Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом
Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...
Автор: 585108837|19 марта 2026
Google DeepMind обновил Gemini API: цепочки инструментов и context circulation
Google DeepMind расширил Gemini API новыми инструментами для разработчиков. Встроенные сервисы — Google Search и Google Maps — теперь можно комбинировать с кастомными функциями в одном запросе....
Автор: 585108837|19 марта 2026
Nvidia незаметно строит мультимиллиардный бизнес, способный потягаться с её чипами
Дженсен Хуанг опередил рынок на годы. Ещё в 2010 году он направил Nvidia на разработку чипов для ИИ — задолго до нынешнего ажиотажа. Похожий ход компания сделала в 2020 году. Nvidia стратегически...
Автор: 585108837|19 марта 2026
В Meta не справляются с выходящими из-под контроля AI-агентами
Image Credits: Carol Yepes / Getty Images AI-агент в Meta вышел из-под контроля и открыл доступ к конфиденциальным данным компании и пользователей для сотрудников, не имевших на это прав. Как следует...
Автор: 585108837|19 марта 2026
Google Labs превратил Stitch в полноценную AI-платформу для дизайна интерфейсов
Google Labs развернул инструмент Stitch в полноценную платформу для проектирования ПО на базе ИИ. Инструмент генерирует пользовательские интерфейсы по текстовым описаниям на естественном языке. Этот...
Автор: 585108837|19 марта 2026
Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров
Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...
Автор: 585108837|18 марта 2026