Тег

#исследование

40 статей

Хакерская группа отравляет open-source код в беспрецедентном масштабе

Хакерская группа отравляет open-source код в беспрецедентном масштабе

22 мая 2026 г.

Как Mythos от Anthropic изменил подход Firefox к кибербезопасности

Как Mythos от Anthropic изменил подход Firefox к кибербезопасности

12 мая 2026 г.

AI Index 2026 от Стэнфорда: стремительный прогресс, проблемы безопасности и падение доверия

AI Index 2026 от Стэнфорда: стремительный прогресс, проблемы безопасности и падение доверия

14 апреля 2026 г.

Anthropic обнаружила в Claude «функциональные эмоции», влияющие на его поведение

Anthropic обнаружила в Claude «функциональные эмоции», влияющие на его поведение

6 апреля 2026 г.

Утечка исходного кода Claude Code

Утечка исходного кода Claude Code

2 апреля 2026 г.

AI-модели уверенно описывают изображения, которых никогда не видели, а бенчмарки этого не замечают

AI-модели уверенно описывают изображения, которых никогда не видели, а бенчмарки этого не замечают

31 марта 2026 г.

Qualcomm сжимает цепочки рассуждений ИИ в 2,4 раза, чтобы запустить «мыслящие» модели на смартфонах

Qualcomm сжимает цепочки рассуждений ИИ в 2,4 раза, чтобы запустить «мыслящие» модели на смартфонах

21 марта 2026 г.

Инженеры Stripe запустили Minions — автономные агенты, генерирующие тысячи pull-requests в неделю

Инженеры Stripe запустили Minions — автономные агенты, генерирующие тысячи pull-requests в неделю

20 марта 2026 г.

Обучение speculative decoding в промышленном масштабе на PyTorch

Обучение speculative decoding в промышленном масштабе на PyTorch

20 марта 2026 г.

Знакомство с Mamba-3: новое поколение State Space Model с вдвое меньшим состоянием и более эффективным MIMO-декодированием

Знакомство с Mamba-3: новое поколение State Space Model с вдвое меньшим состоянием и более эффективным MIMO-декодированием

20 марта 2026 г.

Claude Opus 4.6 нашёл 22 уязвимости в Firefox за две недели

Claude Opus 4.6 нашёл 22 уязвимости в Firefox за две недели

20 марта 2026 г.

Адверсариальные атаки на современные vision-language модели

Адверсариальные атаки на современные vision-language модели

19 марта 2026 г.

AI-учёный через масштабирование синтетических задач

AI-учёный через масштабирование синтетических задач

19 марта 2026 г.

AgriChat: мультимодальная LLM для анализа сельскохозяйственных изображений

AgriChat: мультимодальная LLM для анализа сельскохозяйственных изображений

19 марта 2026 г.

Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

19 марта 2026 г.

BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

19 марта 2026 г.

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре

19 марта 2026 г.

HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM

HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM

19 марта 2026 г.

M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен

M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен

19 марта 2026 г.

Мультимодальное мультиагентное обучение с подкреплением для генерации рентгеновских отчётов: рабочий процесс, подобный работе радиолога, с клинически верифицируемыми наградами

Мультимодальное мультиагентное обучение с подкреплением для генерации рентгеновских отчётов: рабочий процесс, подобный работе радиолога, с клинически верифицируемыми наградами

19 марта 2026 г.

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

19 марта 2026 г.

Omni IIE Bench: бенчмарк для оценки реальных возможностей моделей редактирования изображений

Omni IIE Bench: бенчмарк для оценки реальных возможностей моделей редактирования изображений

19 марта 2026 г.

ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях

ReasoningBank: как заставить AI-агентов эволюционировать через память о рассуждениях

19 марта 2026 г.

TDMM-LM: как языковые модели объединили понимание и анимацию лиц

TDMM-LM: как языковые модели объединили понимание и анимацию лиц

19 марта 2026 г.

VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах

VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах

19 марта 2026 г.

Выявление скрытых стереотипов: мультиязычная оценка современных LLM через призму дебатов

Выявление скрытых стереотипов: мультиязычная оценка современных LLM через призму дебатов

19 марта 2026 г.

CapCut популярнее Gemini, а Яндекс — в топ-10 мобильного AI. Рейтинг a16z

CapCut популярнее Gemini, а Яндекс — в топ-10 мобильного AI. Рейтинг a16z

18 марта 2026 г.

Goldman Sachs: инвестиции в ИИ смещаются в сторону дата-центров

Goldman Sachs: инвестиции в ИИ смещаются в сторону дата-центров

18 марта 2026 г.

Как Amazon обогнала NVIDIA на три дня — и, возможно, изменила будущее ИИ-железа

Как Amazon обогнала NVIDIA на три дня — и, возможно, изменила будущее ИИ-железа

18 марта 2026 г.

Как измерять прогресс к AGI: когнитивный фреймворк

Как измерять прогресс к AGI: когнитивный фреймворк

18 марта 2026 г.

Как инфраструктурный шум искажает оценки agentic-бенчмарков по коду

Как инфраструктурный шум искажает оценки agentic-бенчмарков по коду

18 марта 2026 г.

Обучение Composer работе с длинными горизонтами задач

Обучение Composer работе с длинными горизонтами задач

18 марта 2026 г.

OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ

OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ

18 марта 2026 г.

Осознание бенчмарка в результатах Claude Opus 4.6 на BrowseComp

Осознание бенчмарка в результатах Claude Opus 4.6 на BrowseComp

18 марта 2026 г.

Последний экзамен человечества: насколько «умен» ИИ?

Последний экзамен человечества: насколько «умен» ИИ?

18 марта 2026 г.

Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров

Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров

18 марта 2026 г.

ServiceNow Research представляет EnterpriseOps-Gym: бенчмарк для оценки agentic-планирования в реальных корпоративных сценариях

ServiceNow Research представляет EnterpriseOps-Gym: бенчмарк для оценки agentic-планирования в реальных корпоративных сценариях

18 марта 2026 г.

Семантический поиск против полнотекстового: тестим три embedding-модели на 10 000 категорий Ozon

Семантический поиск против полнотекстового: тестим три embedding-модели на 10 000 категорий Ozon

18 марта 2026 г.

Весна 2026: состояние open source AI на Hugging Face

Весна 2026: состояние open source AI на Hugging Face

18 марта 2026 г.

Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало

Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало

18 марта 2026 г.