Блог о разработке

Статьи о программировании, технологиях и анализе данных

AI Index 2026 от Стэнфорда: стремительный прогресс, проблемы безопасности и падение доверия
AI Index Report 2026 от Стэнфордского института HAI фиксирует резкий скачок производительности моделей, сужение разрыва между США и Китаем и рост проблем безопасности — на фоне продолжающегося...
Автор: bintocher|14 апреля 2026
Anthropic обнаружила в Claude «функциональные эмоции», влияющие на его поведение
Команда по интерпретируемости (изучению внутреннего устройства ИИ) Anthropic нашла в Claude Sonnet 4.5 эмоцеподобные представления. Под давлением они могут толкать модель к шантажу и обходным путям в...
Автор: bintocher|6 апреля 2026
Утечка исходного кода Claude Code
OpenAI закрыла крупнейший в истории раунд на сумму свыше $110 млрд. ARR компании составляет $24 млрд — рост в 4 раза быстрее, чем у Google и Meta в их лучшие годы. Также OpenAI провела «мягкое IPO» с...
AI-модели уверенно описывают изображения, которых никогда не видели, а бенчмарки этого не замечают
Чтобы оценить масштаб проблемы, команда разработала бенчмарк Phantom-0 — 200 визуальных вопросов из 20 категорий, поданных без какого-либо изображения. Все протестированные флагманские модели —...
Автор: 585108837|31 марта 2026
Qualcomm сжимает цепочки рассуждений ИИ в 2,4 раза, чтобы запустить «мыслящие» модели на смартфонах
Qualcomm AI Research разработала модульную систему. Она выводит языковые модели с возможностью рассуждения на смартфоны, сжимая многословные мыслительные процессы в 2,4 раза. Современные...
Автор: 585108837|21 марта 2026
Инженеры Stripe запустили Minions — автономные агенты, генерирующие тысячи pull-requests в неделю
Инженеры Stripe разработали Minions — автономные coding-агенты, способные выполнять задачи разработки ПО от начала до конца по одной инструкции. Система связывает большие языковые модели (LLM) с...
Автор: bintocher|20 марта 2026
Обучение speculative decoding в промышленном масштабе на PyTorch
За последний год большие языковые модели стремительно выросли в масштабах и возможностях. Флагманские модели вроде Kimi K2.5, GLM 5 и Qwen 3.5 насчитывают сотни миллиардов параметров и контекстные...
Автор: bintocher|20 марта 2026
Знакомство с Mamba-3: новое поколение State Space Model с вдвое меньшим состоянием и более эффективным MIMO-декодированием
Эффективность вычислений на этапе инференса (вывода) стала главным фактором производительности больших языковых моделей (LLM). Фокус архитектурных исследований сместился в сторону оптимизации вывода....
Автор: bintocher|20 марта 2026
Claude Opus 4.6 нашёл 22 уязвимости в Firefox за две недели
Claude Opus 4.6 обнаружил 22 уязвимости безопасности в Firefox всего за две недели. Четырнадцать из них получили статус высокой критичности — это почти 20% всех аналогичных багов, исправленных в...
Автор: bintocher|20 марта 2026
ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях
LLM-агенты всё чаще работают в постоянных реальных ролях и сталкиваются с непрерывным потоком задач. Ключевое ограничение: агенты не умеют учиться на накопленном опыте. Они вынуждены отбрасывать...
Автор: bintocher|19 марта 2026
Выявление скрытых стереотипов: мультиязычная оценка современных LLM через призму дебатов
Большие языковые модели (LLM) массово используются для открытого общения. Однако большинство оценок предвзятости по-прежнему опирается на англоязычные задачи классификации. Исследователи из MBZUAI,...
Автор: bintocher|19 марта 2026
AI-учёный через масштабирование синтетических задач
Зиян Цай — Принстонский университет Харкират Бехл — Microsoft Research С появлением AI-агентов автоматические научные открытия стали реальной целью. Многие недавние работы строят агентные системы для...
Автор: bintocher|19 марта 2026
Адверсариальные атаки на современные vision-language модели
Мы исследуем адверсариальную устойчивость open-source vision-language моделей (VLM — модели для совместной работы с изображениями и текстом), развёрнутых в изолированной e-commerce среде. Среда...
Автор: bintocher|19 марта 2026
Omni IIE Bench: бенчмарк для оценки реальных возможностей моделей редактирования изображений
Yujia Yang, Yuanxiang Wang, Zhenyu Guan, Tiankun Yang, Chenxi Bao, Haopeng Jin, Jinwen Luo, Xinyu Zuo, Lisheng Duan, Haijin Liang, Jin Ma, Xinming Wang, Ruiwen Tao, Hongzhu Yi — University of Chinese...
Автор: bintocher|19 марта 2026
AgriChat: мультимодальная LLM для анализа сельскохозяйственных изображений
Irfan Hussain, Sajid Javed — Департамент компьютерных наук, Университет Халифа, Абу-Даби, ОАЭ Применение Multimodal Large Language Models (MLLM) в сельском хозяйстве упирается в критический...
Автор: bintocher|19 марта 2026
Мультимодальное мультиагентное обучение с подкреплением для генерации рентгеновских отчётов: рабочий процесс, подобный работе радиолога, с клинически верифицируемыми наградами
Kaito Baba, Satoshi Kodera Department of Cardiovascular Medicine, The University of Tokyo Hospital, Tokyo, Japan Мы предлагаем MARL-Rad — новый фреймворк мультимодального мультиагентного обучения с...
Автор: bintocher|19 марта 2026
M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен
В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...
Автор: bintocher|19 марта 2026
VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах
Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: bintocher|19 марта 2026
TDMM-LM: как языковые модели объединили понимание и анимацию лиц
Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....
Автор: bintocher|19 марта 2026
NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech
Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: bintocher|19 марта 2026