Блог о разработке
Статьи о программировании, технологиях и анализе данных

LLM-агенты всё чаще работают в постоянных реальных ролях и сталкиваются с непрерывным потоком задач. Ключевое ограничение: агенты не умеют учиться на накопленном опыте. Они вынуждены отбрасывать...
Автор: bintocher|19 марта 2026

Зиян Цай — Принстонский университет Харкират Бехл — Microsoft Research С появлением AI-агентов автоматические научные открытия стали реальной целью. Многие недавние работы строят агентные системы для...
Автор: bintocher|19 марта 2026

Мы исследуем адверсариальную устойчивость open-source vision-language моделей (VLM — модели для совместной работы с изображениями и текстом), развёрнутых в изолированной e-commerce среде. Среда...
Автор: bintocher|19 марта 2026

Yujia Yang, Yuanxiang Wang, Zhenyu Guan, Tiankun Yang, Chenxi Bao, Haopeng Jin, Jinwen Luo, Xinyu Zuo, Lisheng Duan, Haijin Liang, Jin Ma, Xinming Wang, Ruiwen Tao, Hongzhu Yi — University of Chinese...
Автор: bintocher|19 марта 2026

Irfan Hussain, Sajid Javed — Департамент компьютерных наук, Университет Халифа, Абу-Даби, ОАЭ Применение Multimodal Large Language Models (MLLM) в сельском хозяйстве упирается в критический...
Автор: bintocher|19 марта 2026

Kaito Baba, Satoshi Kodera Department of Cardiovascular Medicine, The University of Tokyo Hospital, Tokyo, Japan Мы предлагаем MARL-Rad — новый фреймворк мультимодального мультиагентного обучения с...
Автор: bintocher|19 марта 2026

В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...
Тэги:исследованиеai/ml
Автор: bintocher|19 марта 2026

Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: bintocher|19 марта 2026

Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....
Автор: bintocher|19 марта 2026

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: bintocher|19 марта 2026

Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...
Автор: bintocher|19 марта 2026

Фреймворк YOLO («You Only Look Once») долгое время служил эталоном детекции объектов в реальном времени. Однако традиционные итерации (от YOLOv1 до YOLO11) ограничены задержками и чувствительностью к...
Автор: bintocher|19 марта 2026

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: bintocher|19 марта 2026

Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...
Автор: bintocher|19 марта 2026

Google DeepMind расширил Gemini API новыми инструментами для разработчиков. Встроенные сервисы — Google Search и Google Maps — теперь можно комбинировать с кастомными функциями в одном запросе....

Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...
Автор: bintocher|18 марта 2026

Nvidia получила разрешение Пекина на продажу своих вторых по мощности AI-чипов H200 китайским клиентам, сообщает Reuters. В прошлом году компания остановила производство этих чипов из-за регуляторных...

OpenAI бросила вызов исследователям: создать лучшую языковую модель, уложившись всего в 16 МБ. Компания использует это соревнование для поиска кадров. В открытом исследовательском конкурсе «Parameter...
Автор: bintocher|18 марта 2026

Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...

Apple не даёт популярным vibe-coding-приложениям вроде Replit и Vibecode выпускать новые версии. Компания ссылается на действующие правила, но мера нацелена на потенциальных конкурентов собственной...