Блог о разработке
Статьи о программировании, технологиях и анализе данных

В генерации 3D-сцен по текстовому описанию планировка объектов служит ключевым промежуточным представлением. Она связывает текстовые инструкции с детальным геометрическим выводом. Планировка задаёт...
Тэги:исследованиеai/ml
Автор: bintocher|19 марта 2026

Развитие мультимодальных больших языковых моделей (MLLM) позволило browsing-агентам находить и анализировать мультимодальную информацию из реального веба. Но существующие бенчмарки имеют два...
Автор: bintocher|19 марта 2026

Мультимодальные большие языковые модели (MLLM) существенно продвинули визуальное понимание, но мелкая мимика по-прежнему остаётся слабым местом. Главная проблема — неэффективность токенов....
Автор: bintocher|19 марта 2026

Современные системы text-to-speech (TTS) всё активнее интегрируют невербальные вокализации (NV) — звуки вне речи, такие как смех, вздохи или междометия. Но их оценка лишена стандартизированных метрик...
Автор: bintocher|19 марта 2026

Исследователи из Peking University и Meituan предлагают GIFT. Это метод инициализации для пост-тренинга Large Reasoning Models (LRM — больших моделей для логических рассуждений). Метод устраняет...
Автор: bintocher|19 марта 2026

Фреймворк YOLO («You Only Look Once») долгое время служил эталоном детекции объектов в реальном времени. Однако традиционные итерации (от YOLOv1 до YOLO11) ограничены задержками и чувствительностью к...
Автор: bintocher|19 марта 2026

Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: bintocher|19 марта 2026

Технологии генерации изображений по тексту (Text-to-Image, TTI) развиваются стремительно, но преимущественно в англоязычном сообществе. Проблема не сводится к языку ввода. Англоязычные модели несут...
Автор: bintocher|19 марта 2026

Google DeepMind расширил Gemini API новыми инструментами для разработчиков. Встроенные сервисы — Google Search и Google Maps — теперь можно комбинировать с кастомными функциями в одном запросе....

Команда Baidu Qianfan представила Qianfan-OCR — end-to-end модель (обрабатывающая данные от начала до конца без промежуточных этапов) на 4 млрд параметров. Она объединяет парсинг документов, анализ...
Автор: bintocher|18 марта 2026

Nvidia получила разрешение Пекина на продажу своих вторых по мощности AI-чипов H200 китайским клиентам, сообщает Reuters. В прошлом году компания остановила производство этих чипов из-за регуляторных...

OpenAI бросила вызов исследователям: создать лучшую языковую модель, уложившись всего в 16 МБ. Компания использует это соревнование для поиска кадров. В открытом исследовательском конкурсе «Parameter...
Автор: bintocher|18 марта 2026

Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...

Apple не даёт популярным vibe-coding-приложениям вроде Replit и Vibecode выпускать новые версии. Компания ссылается на действующие правила, но мера нацелена на потенциальных конкурентов собственной...

При переходе от однократных запросов к сложным многошаговым workflow надёжность моделей ломается в предсказуемых местах. Tool-вызовы не соответствуют схемам. Качество reasoning (цепочек рассуждений)...

Фото: Getty Images Министерство обороны США во вторник вечером объявило, что Anthropic представляет собой «неприемлемый риск для национальной безопасности». Это первая реакция ведомства на иски...
Автор: bintocher|18 марта 2026

Министерство войны США организует защищённые среды, где AI-компании смогут обучать модели на секретных данных. До сих пор моделям разрешалось лишь читать такие данные, но не учиться на них. Пентагон...
Автор: bintocher|18 марта 2026

Nvidia анонсировала платформу Space-1 Vera Rubin — вычислительный модуль для работы за пределами Земли. По заявлению компании, производительность инференса на нём в 25 раз выше, чем у серверных H100....
Автор: bintocher|18 марта 2026

Agentic-бенчмарки (тесты, где модель действует как автономный агент) по написанию кода — SWE-bench и Terminal-Bench — стали стандартом для сравнения возможностей передовых моделей. Разрыв между...
Автор: bintocher|18 марта 2026

Полгода я собирал идеальный CLAUDE.md. Вычитывал каждую строку: «используй yarn, не npm», «тесты запускай так», «структура проекта вот такая». 200 строк выстраданного контекста. Потом учёные из ETH...
Автор: bintocher|18 марта 2026