Блог о разработке

Статьи о программировании, технологиях и анализе данных

M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен
В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...
Автор: bintocher|19 марта 2026
VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах
Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: bintocher|19 марта 2026
TDMM-LM: как языковые модели объединили понимание и анимацию лиц
Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....
Автор: bintocher|19 марта 2026
NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech
Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: bintocher|19 марта 2026
GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре
Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...
Автор: bintocher|19 марта 2026
YOLOv26: разбор NMS-Free end-to-end фреймворка для детекции объектов в реальном времени
Фреймворк YOLO («You Only Look Once») долгое время служил эталоном детекции объектов в реальном времени. Однако традиционные итерации (от YOLOv1 до YOLO11) ограничены задержками и чувствительностью к...
Автор: bintocher|19 марта 2026
BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний
Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: bintocher|19 марта 2026
Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом
Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...
Автор: bintocher|19 марта 2026
Google DeepMind обновил Gemini API: цепочки инструментов и context circulation
Google DeepMind расширил Gemini API новыми инструментами для разработчиков. Встроенные сервисы — Google Search и Google Maps — теперь можно комбинировать с кастомными функциями в одном запросе....
Автор: bintocher|19 марта 2026
Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров
Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...
Автор: bintocher|18 марта 2026
Пекин разрешил Nvidia продавать чипы H200, а компания готовит китайскую версию inference-чипа Groq
Nvidia получила разрешение Пекина на продажу своих вторых по мощности AI-чипов H200 китайским клиентам, сообщает Reuters. В прошлом году компания остановила производство этих чипов из-за регуляторных...
Автор: bintocher|18 марта 2026
OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ
OpenAI бросила вызов исследователям: создать лучшую языковую модель, уложившись всего в 16 МБ. Компания использует это соревнование для поиска кадров. В открытом исследовательском конкурсе «Parameter...
Автор: bintocher|18 марта 2026
Аспиранты, ставшие судьями ИИ-индустрии
Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...
Автор: bintocher|18 марта 2026
Apple якобы блокирует vibe-coding-приложения от публикации обновлений
Apple не даёт популярным vibe-coding-приложениям вроде Replit и Vibecode выпускать новые версии. Компания ссылается на действующие правила, но мера нацелена на потенциальных конкурентов собственной...
Автор: bintocher|18 марта 2026
Together AI расширяет сервис дообучения: поддержка tool calling, reasoning и работы с изображениями
При переходе от однократных запросов к сложным многошаговым workflow надёжность моделей ломается в предсказуемых местах. Tool-вызовы не соответствуют схемам. Качество reasoning (цепочек рассуждений)...
Автор: bintocher|18 марта 2026
Минобороны США: «красные линии» Anthropic делают компанию неприемлемым риском для национальной безопасности
Фото: Getty Images Министерство обороны США во вторник вечером объявило, что Anthropic представляет собой «неприемлемый риск для национальной безопасности». Это первая реакция ведомства на иски...
Автор: bintocher|18 марта 2026
Пентагон планирует разрешить AI-компаниям обучать модели на секретных данных
Министерство войны США организует защищённые среды, где AI-компании смогут обучать модели на секретных данных. До сих пор моделям разрешалось лишь читать такие данные, но не учиться на них. Пентагон...
Автор: bintocher|18 марта 2026
Орбитальные дата-центры: Nvidia представила ИИ-модуль Vera Rubin для спутниковых группировок
Nvidia анонсировала платформу Space-1 Vera Rubin — вычислительный модуль для работы за пределами Земли. По заявлению компании, производительность инференса на нём в 25 раз выше, чем у серверных H100....
Как инфраструктурный шум искажает оценки agentic-бенчмарков по коду
Agentic-бенчмарки (тесты, где модель действует как автономный агент) по написанию кода — SWE-bench и Terminal-Bench — стали стандартом для сравнения возможностей передовых моделей. Разрыв между...
Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало
Полгода я собирал идеальный CLAUDE.md. Вычитывал каждую строку: «используй yarn, не npm», «тесты запускай так», «структура проекта вот такая». 200 строк выстраданного контекста. Потом учёные из ETH...
Автор: bintocher|18 марта 2026