Блог о разработке

Статьи о программировании, технологиях и анализе данных

ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях

ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях

LLM-агенты всё чаще работают в постоянных реальных ролях и сталкиваются с непрерывным потоком задач. Ключевое ограничение: агенты не умеют учиться на накопленном опыте. Они вынуждены отбрасывать...

Тэги:llm агенты gemini исследование ai/ml

Автор: bintocher|19 марта 2026

AI-учёный через масштабирование синтетических задач

AI-учёный через масштабирование синтетических задач

Зиян Цай — Принстонский университет Харкират Бехл — Microsoft Research С появлением AI-агентов автоматические научные открытия стали реальной целью. Многие недавние работы строят агентные системы для...

Тэги:llm qwen агенты ai/ml исследование

Автор: bintocher|19 марта 2026

Адверсариальные атаки на современные vision-language модели

Адверсариальные атаки на современные vision-language модели

Мы исследуем адверсариальную устойчивость open-source vision-language моделей (VLM — модели для совместной работы с изображениями и текстом), развёрнутых в изолированной e-commerce среде. Среда...

Тэги:qwen агенты ai/ml безопасность исследование

Автор: bintocher|19 марта 2026

Omni IIE Bench: бенчмарк для оценки реальных возможностей моделей редактирования изображений

Omni IIE Bench: бенчмарк для оценки реальных возможностей моделей редактирования изображений

Yujia Yang, Yuanxiang Wang, Zhenyu Guan, Tiankun Yang, Chenxi Bao, Haopeng Jin, Jinwen Luo, Xinyu Zuo, Lisheng Duan, Haijin Liang, Jin Ma, Xinming Wang, Ruiwen Tao, Hongzhu Yi — University of Chinese...

Тэги:ai/ml исследование repository

Автор: bintocher|19 марта 2026

AgriChat: мультимодальная LLM для анализа сельскохозяйственных изображений

AgriChat: мультимодальная LLM для анализа сельскохозяйственных изображений

Irfan Hussain, Sajid Javed — Департамент компьютерных наук, Университет Халифа, Абу-Даби, ОАЭ Применение Multimodal Large Language Models (MLLM) в сельском хозяйстве упирается в критический...

Тэги:llm rag исследование ai/ml

Автор: bintocher|19 марта 2026

Мультимодальное мультиагентное обучение с подкреплением для генерации рентгеновских отчётов: рабочий процесс, подобный работе радиолога, с клинически верифицируемыми наградами

Мультимодальное мультиагентное обучение с подкреплением для генерации рентгеновских отчётов: рабочий процесс, подобный работе радиолога, с клинически верифицируемыми наградами

Kaito Baba, Satoshi Kodera Department of Cardiovascular Medicine, The University of Tokyo Hospital, Tokyo, Japan Мы предлагаем MARL-Rad — новый фреймворк мультимодального мультиагентного обучения с...

Тэги:llm deep agents исследование ai/ml

Автор: bintocher|19 марта 2026

M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен

M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен

В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...

Тэги:исследование ai/ml

Автор: bintocher|19 марта 2026

VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах

VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах

Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...

Тэги:llm агенты исследование ai/ml

Автор: bintocher|19 марта 2026

TDMM-LM: как языковые модели объединили понимание и анимацию лиц

TDMM-LM: как языковые модели объединили понимание и анимацию лиц

Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....

Тэги:llm исследование ai/ml

Автор: bintocher|19 марта 2026

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...

Тэги:tts inference ai/ml исследование

Автор: bintocher|19 марта 2026

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре

Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...

Тэги:llm qwen vllm исследование ai/ml

Автор: bintocher|19 марта 2026

YOLOv26: разбор NMS-Free end-to-end фреймворка для детекции объектов в реальном времени

YOLOv26: разбор NMS-Free end-to-end фреймворка для детекции объектов в реальном времени

Фреймворк YOLO («You Only Look Once») долгое время служил эталоном детекции объектов в реальном времени. Однако традиционные итерации (от YOLOv1 до YOLO11) ограничены задержками и чувствительностью к...

Тэги:yolov26 обзор ai/ml edge-вычисления

Автор: bintocher|19 марта 2026

BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...

Тэги:исследование ai/ml llm агенты hugging face

Автор: bintocher|19 марта 2026

Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...

Тэги:ai/ml исследование inference

Автор: bintocher|19 марта 2026

Google DeepMind обновил Gemini API: цепочки инструментов и context circulation

Google DeepMind обновил Gemini API: цепочки инструментов и context circulation

Google DeepMind расширил Gemini API новыми инструментами для разработчиков. Встроенные сервисы — Google Search и Google Maps — теперь можно комбинировать с кастомными функциями в одном запросе....

Тэги:gemini релиз ai/ml

Автор: bintocher|19 марта 2026

Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров

Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров

Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...

Тэги:qwen ai/ml исследование hugging face

Автор: bintocher|18 марта 2026

Пекин разрешил Nvidia продавать чипы H200, а компания готовит китайскую версию inference-чипа Groq

Пекин разрешил Nvidia продавать чипы H200, а компания готовит китайскую версию inference-чипа Groq

Nvidia получила разрешение Пекина на продажу своих вторых по мощности AI-чипов H200 китайским клиентам, сообщает Reuters. В прошлом году компания остановила производство этих чипов из-за регуляторных...

Тэги:nvidia groq inference ai/ml бизнес

Автор: bintocher|18 марта 2026

OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ

OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ

OpenAI бросила вызов исследователям: создать лучшую языковую модель, уложившись всего в 16 МБ. Компания использует это соревнование для поиска кадров. В открытом исследовательском конкурсе «Parameter...

Тэги:openai llm ai/ml исследование бизнес

Автор: bintocher|18 марта 2026

Аспиранты, ставшие судьями ИИ-индустрии

Аспиранты, ставшие судьями ИИ-индустрии

Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...

Тэги:llm anthropic агенты ai/ml обзор

Автор: bintocher|18 марта 2026

Apple якобы блокирует vibe-coding-приложения от публикации обновлений

Apple якобы блокирует vibe-coding-приложения от публикации обновлений

Apple не даёт популярным vibe-coding-приложениям вроде Replit и Vibecode выпускать новые версии. Компания ссылается на действующие правила, но мера нацелена на потенциальных конкурентов собственной...

Тэги:ai/ml бизнес мнение

Автор: bintocher|18 марта 2026