Блог о разработке

Статьи о программировании, технологиях и анализе данных

M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен

M3DLayout: мультиисточниковый датасет 3D-планировок интерьеров со структурированными описаниями для генерации 3D-сцен

В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...

Тэги:исследование ai/ml

Автор: bintocher|19 марта 2026

VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах

VisBrowse-Bench: бенчмарк для оценки визуально-ориентированного поиска в мультимодальных browsing-агентах

Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...

Тэги:llm агенты исследование ai/ml

Автор: bintocher|19 марта 2026

TDMM-LM: как языковые модели объединили понимание и анимацию лиц

TDMM-LM: как языковые модели объединили понимание и анимацию лиц

Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....

Тэги:llm исследование ai/ml

Автор: bintocher|19 марта 2026

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

NV-Bench: бенчмарк для синтеза невербальных вокализаций в выразительном Text-to-Speech

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...

Тэги:tts inference ai/ml исследование

Автор: bintocher|19 марта 2026

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре

GIFT: глобальная оптимальность пост-тренинга через Gibbs-инициализацию при конечной температуре

Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...

Тэги:llm qwen vllm исследование ai/ml

Автор: bintocher|19 марта 2026

YOLOv26: разбор NMS-Free end-to-end фреймворка для детекции объектов в реальном времени

YOLOv26: разбор NMS-Free end-to-end фреймворка для детекции объектов в реальном времени

Фреймворк YOLO («You Only Look Once») долгое время служил эталоном детекции объектов в реальном времени. Однако традиционные итерации (от YOLOv1 до YOLO11) ограничены задержками и чувствительностью к...

Тэги:yolov26 обзор ai/ml edge-вычисления

Автор: bintocher|19 марта 2026

HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM

HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM

Выравнивание (alignment) больших языковых моделей (LLM) с человеческими ценностями — критическое условие их безопасного развертывания. Однако jailbreak-атаки способны обойти эту защиту и заставить...

Тэги:llm исследование безопасность

Автор: bintocher|19 марта 2026

BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...

Тэги:исследование ai/ml llm агенты hugging face

Автор: bintocher|19 марта 2026

Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

Bridge Diffusion Model: как соединить китайские text-to-image модели с английским сообществом

Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...

Тэги:ai/ml исследование inference

Автор: bintocher|19 марта 2026

Google DeepMind обновил Gemini API: цепочки инструментов и context circulation

Google DeepMind обновил Gemini API: цепочки инструментов и context circulation

Google DeepMind расширил Gemini API новыми инструментами для разработчиков. Встроенные сервисы — Google Search и Google Maps — теперь можно комбинировать с кастомными функциями в одном запросе....

Тэги:gemini релиз ai/ml

Автор: bintocher|19 марта 2026

Nvidia незаметно строит мультимиллиардный бизнес, способный потягаться с её чипами

Nvidia незаметно строит мультимиллиардный бизнес, способный потягаться с её чипами

Дженсен Хуанг опередил рынок на годы. Ещё в 2010 году он направил Nvidia на разработку чипов для ИИ — задолго до нынешнего ажиотажа. Похожий ход компания сделала в 2020 году. Nvidia стратегически...

Тэги:nvidia инфраструктура бизнес обзор

Автор: bintocher|19 марта 2026

В Meta не справляются с выходящими из-под контроля AI-агентами

В Meta не справляются с выходящими из-под контроля AI-агентами

Image Credits: Carol Yepes / Getty Images AI-агент в Meta вышел из-под контроля и открыл доступ к конфиденциальным данным компании и пользователей для сотрудников, не имевших на это прав. Как следует...

Тэги:openclaw агенты уязвимость безопасность

Автор: bintocher|19 марта 2026

Google Labs превратил Stitch в полноценную AI-платформу для дизайна интерфейсов

Google Labs превратил Stitch в полноценную AI-платформу для дизайна интерфейсов

Google Labs развернул инструмент Stitch в полноценную платформу для проектирования ПО на базе ИИ. Инструмент генерирует пользовательские интерфейсы по текстовым описаниям на естественном языке. Этот...

Тэги:gemini релиз frontend агенты

Автор: bintocher|19 марта 2026

Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров

Qianfan-OCR от Baidu: единая модель для работы с документами на 4 млрд параметров

Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...

Тэги:qwen ai/ml исследование hugging face

Автор: bintocher|18 марта 2026

Пекин разрешил Nvidia продавать чипы H200, а компания готовит китайскую версию inference-чипа Groq

Пекин разрешил Nvidia продавать чипы H200, а компания готовит китайскую версию inference-чипа Groq

Nvidia получила разрешение Пекина на продажу своих вторых по мощности AI-чипов H200 китайским клиентам, сообщает Reuters. В прошлом году компания остановила производство этих чипов из-за регуляторных...

Тэги:nvidia groq inference ai/ml бизнес

Автор: bintocher|18 марта 2026

OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ

OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ

OpenAI бросила вызов исследователям: создать лучшую языковую модель, уложившись всего в 16 МБ. Компания использует это соревнование для поиска кадров. В открытом исследовательском конкурсе «Parameter...

Тэги:openai llm ai/ml исследование бизнес

Автор: bintocher|18 марта 2026

Аспиранты, ставшие судьями ИИ-индустрии

Аспиранты, ставшие судьями ИИ-индустрии

Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...

Тэги:llm anthropic агенты ai/ml обзор

Автор: bintocher|18 марта 2026

Polly теперь доступна на всех страницах LangSmith

Polly теперь доступна на всех страницах LangSmith

Отладка AI-агентов отличается от обычной. Трейсы (логи выполнения) уходят на сотни шагов вглубь. Промпты содержат тысячи строк. Когда что-то ломается, причина ошибки теряется посередине. Polly — это...

Тэги:langchain релиз агенты

Автор: bintocher|18 марта 2026

Apple якобы блокирует vibe-coding-приложения от публикации обновлений

Apple якобы блокирует vibe-coding-приложения от публикации обновлений

Apple не даёт популярным vibe-coding-приложениям вроде Replit и Vibecode выпускать новые версии. Компания ссылается на действующие правила, но мера нацелена на потенциальных конкурентов собственной...

Тэги:ai/ml бизнес мнение

Автор: bintocher|18 марта 2026

Together AI расширяет сервис дообучения: поддержка tool calling, reasoning и работы с изображениями

Together AI расширяет сервис дообучения: поддержка tool calling, reasoning и работы с изображениями

При переходе от однократных запросов к сложным многошаговым workflow надёжность моделей ломается в предсказуемых местах. Tool-вызовы не соответствуют схемам. Качество reasoning (цепочек рассуждений)...

Тэги:релиз ai/ml агенты qwen

Автор: bintocher|18 марта 2026

chernovdev.ru - Блог о разработке