Блог о разработке

Статьи о программировании, технологиях и анализе данных

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре
Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...
Автор: bintocher|19 марта 2026
HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM
Выравнивание (alignment) больших языковых моделей (LLM) с человеческими ценностями — критическое условие их безопасного развертывания. Однако jailbreak-атаки способны обойти эту защиту и заставить...
Автор: bintocher|19 марта 2026
BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний
Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: bintocher|19 марта 2026
Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом
Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...
Автор: bintocher|19 марта 2026
Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров
Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...
Автор: bintocher|18 марта 2026
OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ
OpenAI бросила вызов исследователям: создать лучшую языковую модель, уложившись всего в 16 МБ. Компания использует это соревнование для поиска кадров. В открытом исследовательском конкурсе «Parameter...
Автор: bintocher|18 марта 2026
Как инфраструктурный шум искажает оценки agentic-бенчмарков по коду
Agentic-бенчмарки (тесты, где модель действует как автономный агент) по написанию кода — SWE-bench и Terminal-Bench — стали стандартом для сравнения возможностей передовых моделей. Разрыв между...
Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало
Полгода я собирал идеальный CLAUDE.md. Вычитывал каждую строку: «используй yarn, не npm», «тесты запускай так», «структура проекта вот такая». 200 строк выстраданного контекста. Потом учёные из ETH...
Автор: bintocher|18 марта 2026
Как Amazon обогнала NVIDIA на три дня — и, возможно, изменила будущее ИИ-железа
Через несколько минут после публикации этой статьи NVIDIA представит то, что ещё недавно считалось бы первым в отрасли: disaggregated-решение (архитектура с физически разделёнными компонентами для...
Семантический поиск против полнотекстового: тестим три embedding-модели на 10 000 категорий Ozon
Идея семантического поиска — представить и документы, и запрос в виде числовых векторов. Такие векторы называют эмбеддингами (embeddings). Близкие по смыслу тексты получают близкие векторы. Для...
Автор: bintocher|18 марта 2026
Последний экзамен человечества: насколько «умен» ИИ?
Научный подход не допускает веры на слово — любое утверждение становится фактом только после проверки. Знания не исключение: школы и университеты измеряют их экзаменами. С появлением генеративных ИИ...
Автор: bintocher|18 марта 2026
CapCut популярнее Gemini, а Яндекс — в топ-10 мобильного AI. Рейтинг a16z
Если оценивать рынок генеративного ИИ только по десктопным продуктам — картина получается искажённой. На вебе генеративный ИИ — это ChatGPT, Claude, Character.ai, Midjourney. Чат-боты, ролевые...
Автор: bintocher|18 марта 2026
Обучение Composer работе с длинными горизонтами задач
Мы обучаем Composer решать задачи с длинным горизонтом через reinforcement learning (обучение с подкреплением). Мы назвали этот метод self-summarization (самосжатие). Встроив самосжатие в процесс...
Автор: bintocher|18 марта 2026
Осознание бенчмарка в результатах Claude Opus 4.6 на BrowseComp
BrowseComp — бенчмарк (набор тестов), проверяющий, насколько хорошо модели находят труднообнаружимую информацию в интернете. Как и многие бенчмарки, он уязвим к загрязнению данных. Ответы утекают в...
Автор: bintocher|18 марта 2026
Goldman Sachs: инвестиции в ИИ смещаются в сторону дата-центров
Инвестиции в искусственный интеллект переходят в фазу жесткого отбора: компании и инвесторы смотрят мимо первоначального хайпа и фокусируются на инфраструктуре дата-центров, необходимой для запуска...
Автор: bintocher|18 марта 2026
Как измерять прогресс к AGI: когнитивный фреймворк
Artificial General Intelligence (AGI) способен ускорить научные открытия и помочь в решении ключевых проблем человечества. Но понять, насколько мы близки к этой точке, сложно. Не хватает практических...
Автор: bintocher|18 марта 2026
Весна 2026: состояние open source AI на Hugging Face
Как изменился ландшафт open source AI за прошедший год в сфере конкуренции, географии, технических трендов и зарождающихся сообществ. Мы анализируем активность на Hugging Face по множеству метрик,...
Автор: bintocher|18 марта 2026
ServiceNow Research представляет EnterpriseOps-Gym: бенчмарк для оценки agentic-планирования в реальных корпоративных сценариях
Большие языковые модели (LLM) переходят от формата диалога к автономным агентам. Такие агенты способны выполнять сложные профессиональные workflows. Однако их реальное внедрение в корпоративной среде...
Автор: bintocher|18 марта 2026