Блог о разработке
Статьи о программировании, технологиях и анализе данных

Компания Xiaomi представила MiMo-V2-Pro — флагманскую foundation-модель, оптимизированную для агентских рабочих нагрузок. Модель входит в топ-8 мирового рейтинга Artificial Analysis Intelligence...
Тэги:
Автор: 585108837|19 марта 2026

Зиян Цай — Принстонский университет Харкират Бехл — Microsoft Research С появлением AI-агентов автоматические научные открытия стали реальной целью. Многие недавние работы строят агентные системы для...
Автор: 585108837|19 марта 2026

Мы исследуем адверсариальную устойчивость open-source vision-language моделей (VLM — модели для совместной работы с изображениями и текстом), развёрнутых в изолированной e-commerce среде. Среда...
Автор: 585108837|19 марта 2026

Yujia Yang, Yuanxiang Wang, Zhenyu Guan, Tiankun Yang, Chenxi Bao, Haopeng Jin, Jinwen Luo, Xinyu Zuo, Lisheng Duan, Haijin Liang, Jin Ma, Xinming Wang, Ruiwen Tao, Hongzhu Yi — University of Chinese...
Автор: 585108837|19 марта 2026

Irfan Hussain, Sajid Javed — Департамент компьютерных наук, Университет Халифа, Абу-Даби, ОАЭ Применение Multimodal Large Language Models (MLLM) в сельском хозяйстве упирается в критический...
Автор: 585108837|19 марта 2026

Kaito Baba, Satoshi Kodera Department of Cardiovascular Medicine, The University of Tokyo Hospital, Tokyo, Japan Мы предлагаем MARL-Rad — новый фреймворк мультимодального мультиагентного обучения с...
Автор: 585108837|19 марта 2026

В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...
Тэги:исследованиеai/ml
Автор: 585108837|19 марта 2026

Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: 585108837|19 марта 2026

Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....
Автор: 585108837|19 марта 2026

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: 585108837|19 марта 2026

Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...
Автор: 585108837|19 марта 2026

Фреймворк YOLO («You Only Look Once») долгое время служил эталоном детекции объектов в реальном времени. Однако традиционные итерации (от YOLOv1 до YOLO11) ограничены задержками и чувствительностью к...
Автор: 585108837|19 марта 2026

Выравнивание (alignment) больших языковых моделей (LLM) с человеческими ценностями — критическое условие их безопасного развертывания. Однако jailbreak-атаки способны обойти эту защиту и заставить...
Автор: 585108837|19 марта 2026

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: 585108837|19 марта 2026

Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...
Автор: 585108837|19 марта 2026

Google DeepMind расширил Gemini API новыми инструментами для разработчиков. Встроенные сервисы — Google Search и Google Maps — теперь можно комбинировать с кастомными функциями в одном запросе....

Дженсен Хуанг опередил рынок на годы. Ещё в 2010 году он направил Nvidia на разработку чипов для ИИ — задолго до нынешнего ажиотажа. Похожий ход компания сделала в 2020 году. Nvidia стратегически...
Автор: 585108837|19 марта 2026

Image Credits: Carol Yepes / Getty Images AI-агент в Meta вышел из-под контроля и открыл доступ к конфиденциальным данным компании и пользователей для сотрудников, не имевших на это прав. Как следует...
Автор: 585108837|19 марта 2026

Google Labs развернул инструмент Stitch в полноценную платформу для проектирования ПО на базе ИИ. Инструмент генерирует пользовательские интерфейсы по текстовым описаниям на естественном языке. Этот...

Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...
Автор: 585108837|18 марта 2026