[AINews] Каждый серьёзный лаб, который заботится о разработчиках, скупает devtools-компании

Сегодняшняя новость о покупке Astral компанией OpenAI замыкает круг. Google DeepMind начал его, купив будущую команду Antigravity в июле прошлого года. Затем последовала покупка Bun компанией Anthropic в декабре. Astral присоединяется к OpenClaw и (в меньшей степени) gpt-oss и Whisper в растущем списке топовых open-source AI-проектов OpenAI.

Это происходит на фоне того, что Фиджи Симо явно отказывается от «side quests» вроде Shopping. Ключевой партнёр Walmart отчитался об ужасной конверсии — примерно 1/3 кликов. Приоритеты смещены на Enterprise (Frontier Alliances) и Coding (Astral). А теперь ещё и объединяет приложения ChatGPT и Codex в одно «superapp» — мы это предсказывали, но теперь это официально стало приоритетом на высшем уровне.

Если в «Rise of the AI Engineer» три года назад мы в чём-то ошиблись, так это в недооценке роли кода. Тогда мы сформулировали тезис «1+2=3» — LLM-программное обеспечение способно на гораздо больше, чем LLM или софт по отдельности. По сути, мы предвосхитили то, что сейчас называют harness engineering (инженерия связок между моделью и внешними инструментами). Но мы почти полностью упустили важность рекурсивной природы agentic coding — когда ИИ-агенты пишут код, который улучшает самих агентов. Этот подход отмечен повсюду — от Claude Code до MiniMax 2.7 — как ключевой элемент ускорения в лабораториях. (Мы всё же закончили пронзительной фразой: «Как человеческие инженеры научатся управлять ИИ, ИИ всё больше будет заниматься инженерией, пока в отдалённом будущем мы однажды не поднимем голову и не сможем отличить одно от другого».) Полбалла за предвидение, но минус за недооценку важности и неизбежности. К счастью, к моменту первого AIE Summit я уже выделял 1/3 веса AI Engineering на agentic coding.

AI Coding Agents, Developer Tooling и гонка за IDE

Cursor Composer 2 — главный релиз coding-модели за день: @cursor_ai выпустил Composer 2, позиционируя его как frontier-class модель с серьёзным снижением стоимости. Cursor утверждает, что прирост качества дал первый запуск continued pretraining (дополнительного дообучения базовой модели), который подал более сильную базу в RL — reinforcement learning, обучении с подкреплением (подробности). Независимые реакции подчёркивали соотношение цена/качество. @kimmonismus отметил $0.50/M на входе и $2.50/M на выходе с результатами 61.3 на CursorBench, 61.7 на Terminal-Bench 2.0 и 73.7 на SWE-bench Multilingual. @mntruell описал Cursor как новый тип компании, объединяющий API-модели с domain-specific in-house моделями (внутренними моделями под конкретную задачу). Релиз также включил ранний alpha-UI в Glass, а @theo отметил, что индустрия, вероятно, сойдётся на более agent-native UX. Несколько инженеров обратили внимание на инфраструктуру обучения: @ellev3n11 сообщил, что RL-запуск был распределён по 3–4 кластерам по всему миру, а @amanrsanger отметил, что команда из ~40 человек сфокусирована исключительно на задачах software engineering.
OpenAI движется вниз по стеку с Astral; Anthropic расширяет поверхность Claude Code: @charliermarsh объявил, что Astral — команда за uv, ruff и ty — присоединяется к команде Codex в OpenAI; @gdb подтвердил сделку со стороны OpenAI. Покупку широко восприняли как укрепление moat (защитного рва, конкурентного преимущества) developer-платформы OpenAI через владение фундаментальным Python-тулингом; см. @Yuchenj_UW и комментарий Саймона Уиллисона. Параллельно Anthropic расширил Claude Code channels — возможностью взаимодействовать через мессенджеры, пока в research preview (объявление, доки). Направление продукта показательно: и OpenAI, и Anthropic двигаются за пределы «model API» к постоянным developer-воркфлоу и ambient agent access — фоновому доступу к агентам, встроенному в рабочую среду.

Agents, Multi-Agent Runtimes и Enterprise Agent Control Planes

Центр тяжести смещается от одиночных агентов к управляемым флотам, runtime и agent OS: @LangChain запустил LangSmith Fleet — enterprise-воркспейс для создания и управления флотом агентов с памятью, инструментами, правами и channel-интеграциями. Ключевые темы: agent identity (идентичность агента), credential management (управление учётными данными), управление доступом, интеграция со Slack и аудитируемость (обзор, доп. контекст). Это согласуется с более широким дискурсом: «агент» больше не полезная абстракция сам по себе. @YuvalinTheDeep утверждает, что правильная метафора — AI operating system, распределяющий работу, ресурсы и контексты выполнения. Дополняющие релизы усилили этот stack-level взгляд: @cognition добавил команды Devins, где Devin декомпозирует работу и делегирует параллельным Devins в отдельных VM; @lvwerra выпустил AgentUI — multi-agent интерфейс, координирующий code-, search- и multimodal-специалистов; а @hrishioa аргументировал, что долгосрочная agentic работа теперь требует специализированного runtime с checkpointing (сохранением контрольных точек), rollback (откатом), переключением между провайдерами и execution repair (автовосстановлением при ошибках).
Безопасность и права доступа становятся first-class design constraints для agent-систем: повторяющимся лейтмотивом стало то, что production-деплой агентов тормозится не вопросом «может ли модель это сделать?», а правами, контролем blast radius (зоны потенциального ущерба) и observability (наблюдаемостью). @swyx выделил identity-based authorization (авторизацию на основе идентичности) как формирующийся консенсус в AI-безопасности. @baseten описал NemoClaw как ответ NVIDIA на проблемы безопасности в стиле OpenClaw — с нулевыми правами по умолчанию, sandboxed subagents (подагентами, изолированными в песочницах) и infra-enforced private inference (инфраструктурно гарантированным приватным выводом). Запуск LangSmith Fleet также серьёзно акцентировал permissions и audit trails. Вывод: agent-стеки взрослеют во что-то гораздо ближе к enterprise software infrastructure, чем к обёрткам над чат-ботами.

Релизы моделей, бенчмарки и результаты retrieval/reasoning

MiniMax M2.7 позиционируется как практичная agent-модель, а не чистый «frontier giant»: MiniMax анонсировал более глубокий технический стрим с OpenClaw про self-evolution (самоулучшение модели через итеративные циклы) и инфраструктуру для 100 000 работающих кластеров (объявление). Ранние отчёты пользователей подчеркнули улучшенный эмоциональный интеллект, consistency персонажей (стабильность характера в диалоге) и сильные agentic-воркфлоу (заметка MiniMax). Более техническая оценка от ZhihuFrontier: M2.7 держит общую производительность примерно на уровне предыдущего поколения. При этом улучшаются instruction following, обработка контекстных галлюцинаций и поведение в большом коде и multi-round диалогах. hard reasoning (сложные логические задачи) слегка хуже, потребление токенов выше. Интеграция началась немедленно: @Teknium добавил M2.7 в Hermes Agent, а пользователи сообщили о лучшем поведении в долгих agent-сессиях, чем у OpenClaw в некоторых воркфлоу (пример).
Qwen 3.5 Max Preview и retrieval-центричные системы показали заметное движение в лидербордах: @arena сообщил, что Qwen 3.5 Max Preview достиг #3 в Math, Top 10 в Arena Expert и Top 15 в общем зачёте с особенно крупными gains против предыдущих Max-вариантов в тексте, письме и математике (разбивка); @Alibaba_Qwen подтвердил, что дальше будет больше оптимизации. Между тем, один из самых технически интересных кластеров результатов — вокруг late interaction retrieval (метода поиска, где запрос и документ сравниваются на уровне отдельных токенов, а не через один вектор). @antoine_chaffin заявил, что BrowseComp-Plus теперь почти на 90% решён с помощью Reason-ModernColBERT — модели на 150M параметров, которая обошла системы до 54× крупнее в deep research-стиле retrieval. Последующие обсуждения от @lateinteraction и других утверждали, что это не разовое явление. Это ещё один сильный сигнал, что multi-vector / late-interaction retrieval систематически превосходит dense single-vector подходы (где документ представлен одним плотным вектором) в reasoning-intensive поиске.

Multimodal-модели, OCR, парсинг документов и креативные инструменты

Целая пачка document/OCR-тулинга: от модельных до немодельных подходов: @nathanhabib1011 отметил Chandra OCR 2 как новый SOTA OCR с 85.9% на olmOCR bench, 90+ языками, моделью на 4B параметров и поддержкой рукописного текста, математики, форм, таблиц и caption extraction. Отдельно @skalskip92 выделил GLM-OCR 0.9B как маленькую OCR-модель, которая якобы обходит Gemini на OCR-бенчмарках. На фронте парсинга LlamaIndex открыл исходники LiteParse — локальный, layout-aware (учитывающий пространственную раскладку) парсер для PDF, Office-документов и изображений с нулевыми Python-зависимостями, встроенными опциями OCR, сохранением пространственной раскладки и явным таргетингом на agent pipelines (запуск, расширенный пост). Полезное разделение в стеке: высокоуровневые OCR/VLM для сложных страниц + легковесные локальные парсеры для типичных случаев.
Image/video и world-model работы ускоряются, но интересное — в латентности и деплоябельности: Google выкатил существенно улучшенный AI Studio с новым coding-агентом Antigravity плюс интеграциями с Firebase, включая multiplayer-приложения, бэкенд-сервисы, аутентификацию и persistent-билды (сохраняемые между сессиями сборки) (пост Google AI Studio, сводка Google). В области генерации изображений Microsoft запустил MAI-Image-2, дебютировавший на #5 в Image Arena с крупными приростами по подкампаниям против MAI-Image-1, особенно в рендеринге текста и портретах (рейтинг, анонс Microsoft). Для vision/video understanding @skalskip92 показал MolmoPoint, выполняющий point-based multi-object tracking напрямую из VLM — в отличие от подходов через сегментацию вроде SAM. А @kimmonismus сделал полезное системное замечание: sub-100ms циклы prompt-to-output в генеративном медиа могут быть важнее сырого качества модели для реальных production-воркфлоу.

Training, архитектуры, inference и системные исследования

Continued pretraining и качество RL-окружений снова становятся ключевыми конкурентными рычагами: команда Composer 2 прямо связала приросты с continued pretraining перед RL (Cursor). Несколько исследователей утверждали, что этот паттерн станет нормой для специализированных моделей (@code_star, @cwolferesearch). Родственно: @pratyushmaini ввёл «Finetuner’s Fallacy»: ранние обучающие данные оставляют устойчивый отпечаток в репрезентациях модели, с которым поздний finetuning не справляется. На системном фронте @skypilot_org масштабировал autoresearch в стиле Карпати на K8s GPU-кластере, запустив ~910 экспериментов за 8 часов вместо ~96 последовательно — пример того, как инфраструктура напрямую меняет форму автоматизированных исследовательских циклов.
Архитектурные исследования остаются активными за пределами стандартных трансформеров: @MayankMish98 выпустил M²RNN, вернувшись к нелинейной рекуррентности с матрично-значными состояниями (где скрытое состояние — матрица, а не вектор) для масштабируемого языкового моделирования. @tri_dao заметил, что нелинейные RNN-слои, похоже, добавляют нечто отличное от attention и линейных SSM (State Space Models, моделей на основе пространств состояний). Стек Nemotron 3 от NVIDIA также привлёк внимание сочетанием Transformer + Mamba 2, MoE/LatentMoE (Mixture of Experts — архитектуры с несколькими экспертными подмодулями), multi-token prediction и точности NVFP4 (4-битного формата чисел NVIDIA) для снижения стоимости inference и long-context agent-нагрузок (сводка). На инфрауровне @rachpradhan сообщил, что TurboAPI достиг 150k req/s, выдав 22× throughput FastAPI после дня оптимизации, а @baseten запустил Baseten Delivery Network, сокращающий cold starts (задержки при первой загрузке) больших моделей на 2–3×.

Топ твитов (по вовлечённости)

OpenAI покупает Astral: @charliermarsh объявил о присоединении Astral к команде Codex — один из самых чётких сигналов, что AI-лабы теперь считают владение core devtools стратегическим активом.
Запуск Cursor Composer 2: @cursor_ai — технический релиз с самой высокой вовлечённостью в подборке, отражающий, насколько центральным стало соотношение цена/качество coding-моделей.
Обновлённый vibe coding-стек Google AI Studio: @GoogleAIStudio и @OfficialLoganK вызвали большой интерес к full-stack генерации приложений с persistent-билдами, multiplayer и бэкенд-интеграциями.
LlamaIndex LiteParse: @jerryjliu0 откликнулся сильно, что говорит о продолжающемся спросе на практичную local-first инфраструктуру парсинга для agent pipelines.
Late interaction retrieval на BrowseComp-Plus: @antoine_chaffin опубликовал один из наиболее важных бенчмарк-результатов дня: 150M late-interaction retriever пододвигает сложный deep-research бенчмарк к 90%.

Анонсирован MiniMax-M2.7! (Активность: 1078): Изображение показывает сравнительный анализ новой модели MiniMax-M2.7 против M2.5, Gemini 31 Pro, Sonnet 4.6, Opus 4.6 и GPT 5.4 по бенчмаркам SWE Bench Pro, VIBE-Pro и MM-ClawBench. MiniMax-M2.7 выделен красным и демонстрирует превосходство в нескольких категориях. В разработке модели сделан упор на автономную итерацию: модель оптимизирует себя через циклы анализа, планирования, модификации и оценки, добившись 30% прироста производительности на внутренних оценочных сетах.
- Recoil42 подчёркивает возможности автономной итерации MiniMax-M2.7 — модель самостоятельно анализирует пути ошибок, планирует изменения, модифицирует код и оценивает результаты.
- Specialist_Sun_7819 поднимает критический вопрос о разрыве между бенчмарками и реальной пригодностью, отмечая, что многие модели отлично справляются с оценками, но проваливаются на задачах вне тренировочного распределения.
- Lowkey_LokiSN выражает беспокойство по поводу устойчивости модели к квантизации, ссылаясь на проблемы с вариантом UD-Q4_K_XL у предыдущего M2.5.
Omnicoder-Claude-4.6-Opus-Uncensored-GGUF (Активность: 397): Пост представляет OmniClaw — модель, созданную из реальных сессий Claude Code / Codex с использованием датасета DataClaw, доступную на Hugging Face. Все модели uncensored и используют квантизацию Q8_0 из-за проблем с качеством других вариантов.
- grumd приводит детальное сравнение на бенчмарке Aider (225 сложных задач). pass@1 и pass@2 — доля успешных решений с одной и двумя попытками соответственно. Qwen3.5 35B-A3B — 26.7% pass@1 и 54.7% pass@2 за 95 секунд на задачу; Omnicoder 9B — 5.3% pass@1 и 29.3% pass@2 за 402 секунды. Существенный разрыв в эффективности и точности.
- grumd скептичен насчёт того, что дистилляция Claude решит проблемы Omnicoder — текущие результаты неутешительны.
- jack-in-the-sack спрашивает, можно ли заменить Claude Code на Omnicoder, отражая типичное беспокойство сообщества о совместимости и компромиссах при переключении моделей.
Компания дала мне сервер с 2x H200 (282GB VRAM). Помогите определить «потолок интеллекта» (Активность: 854): У пользователя есть сервер с двумя Nvidia H200 по 141GB HBM3e каждая, итого 282GB VRAM. Задача — тестировать LLM для локальных задач кодинга. Рекомендуется Qwen 3.5 397B через vLLM при Q4 квантизации. Советуют избегать ollama и llama.cpp из-за плохой обработки batched inference (пакетной обработки нескольких запросов одновременно).
- Zyj предлагает vLLM с Qwen 3.5 397B — при Q4 точности должен остаться значительный контекст.
- TUBlender предостерегает от ollama и llama.cpp при необходимости batched inference: личный опыт с ollama на qwen2.5 72b — нестабильность и краши. Рекомендует vllm или sglang.
- Mikolai007 предупреждает не использовать модели, которые упираются в лимит VRAM, чтобы сохранить здоровое контекстное окно. Рекомендует Minimax M2.5 и Qwen 3.5, а GLM 5 считает слишком большим при 800b.
Две недели назад спросил, нужен ли open-source локальный генератор 3D-моделей из изображений (Активность: 366): Бета-версия десктопного приложения для генерации 3D-мешей из изображений, сейчас поддерживает Hunyuan3D 2 Mini. Приложение модульное, построено на системе расширений. Репозиторий на GitHub.
- New_Comfortable7240 описывает желаемый функционал: чат-интерфейс для итеративного редактирования, сохранение чекпоинтов, совместимость с glTF.
- Nota_ReAlperson упоминает Trellis 2 как SOTA в открытом 3D-генерировании и предлагает поддержку ggml бэкенда для non-CUDA GPU.
- ArtifartX подчёркивает необходимость импорта кастомных мешей и генерации текстур, советует фокусироваться на форматах OBJ, FBX, GLTF, USD.
Harmonic выпускает Aristotle — первого в мире формального математического agent-а, бесплатно (Активность: 446): «Aristotle Agent» от Harmonic — автономный математический агент, способный решать и формализовать сложные математические задачи с формальной верификацией доказательств, обеспечивающей корректность без участия человека. В отличие от AlphaProof от DeepMind, инструмент бесплатен.
- ikkiho выделяет значимость формальной верификации: в отличие от LLM, генерирующих доказательства на естественном языке, Aristotle использует Lean-доказательства (на языке Lean — системе формальных доказательств, где корректность проверяется конструктивно).
- ikkiho также спрашивает, тестировался ли Aristotle на сложных открытых проблемах или пока ограничивается учебной математикой.
- omegahustle выражает надежду, что Aristotle останется бесплатным и будет использоваться ответственно.
Вышла новая версия приложения Gemini (Активность: 425): Обновление Google Gemini до версии 1.2026.1062300 добавляет «Personal Intelligence» для бесплатных пользователей в США — функцию для улучшения связанности между Google-приложениями с персонализированными ответами. Размер обновления — 196.2 MB.
- Technical_Train_9821 поднимает вопросы приватности данных: если правительство получит доступ, вся онлайн-присутствие человека станет searchable.
- brandeded описывает практические сценарии: создание календарных событий на основе email, поиск конкретных финансовых транзакций, получение информации из Google Drive.
Практически официально: Qwen Image 2.0 не будет open-source (Активность: 495): Изначально помеченная как «Open-Source» на исследовательской странице Qwen, модель Qwen-Image-2.0 была реклассифицирована как «Release». Модель поддерживает профессиональный рендеринг типографики, 1k-token инструкции и нативное разрешение 2K.
- Skystunt отмечает, что конкурентное преимущество Qwen Image 2.0 снижается при сравнении с Midjourney или Nano Banana, предлагающими более зрелые UI и open-source преимущества.
- BreakingGood объясняет стратегический сдвиг Alibaba: CEO недоволен отсутствием доходов от open-моделей, что привело к уходу ключевых инженеров.
- LeKhang98 замечает, что воспринимаемая частота релизов завышена — реально выходит 2–3 значимые модели в год.
Австралийский ML-исследователь с помощью ChatGPT+AlphaFold сократил на 75% опухоль своей собаки, разработав персонализированную mRNA-вакцину за два месяца (Активность: 498): Пол Конингем использовал ChatGPT и AlphaFold для создания персонализированной mRNA-вакцины для своей собаки Роз с мастоцитарной опухолью. Секвенирование ДНК опухоли обошлось примерно в $2 000, неоантигены (индивидуальные антигены опухоли) определялись через ChatGPT, белковые структуры предсказывались через AlphaFold. За два месяца опухоль сократилась на 75% (источник).
- DepartmentDapper9823 считает, что случай показывает, как регуляторные органы могут тормозить медицинский прогресс — при обходе барьеров достижения происходят быстрее.
- AngleAccomplished865 призывает к экспертным оценкам: значимый ли это сдвиг в демократизации здравоохранения или просто хайп.
- 682463435465 беспокоится, что люди с раком могут попытаться воспроизвести этот подход на себе без должного медицинского руководства.
Сделал open-source инструмент, который определяет точные координаты по любой фотографии (Активность: 837): Netryx — open-source инструмент от студента для определения точных географических координат по уличным фото через визуальные признаки и кастомный ML-пайплайн. Доступен на GitHub.
Сделал Claude skill, который пишет точные промпты для любого AI-инструмента. 600 звёзд на GitHub‼️ (Активность: 728): prompt-master — Claude skill для оптимизации генерации промптов, набравший 600+ звёзд на GitHub. Инструмент определяет целевой AI-инструмент и применяет специфичные стратегии, извлекая 9 измерений из пользовательского ввода и выявляя 35 типичных проблем промптов. Версия v1.4, планируется v1.5 с agent-улучшениями. Репозиторий.
- Ключевая фишка — tool-specific routing (маршрутизация промптов под конкретный инструмент), делающий инструмент эффективнее универсальных enhancers, потому что Midjourney и Claude Code требуют разной структуры промптов.
- Пользователь спрашивает о совместимости с open-source моделями — в частности, локальный запуск через ComfyUI на GPU 5090.
- Отмечается, что если инструмент реально управляет нюансами между Cursor и Claude Code, это значительно повысит юзабилити.
Устал вручную промптить каждый клип для AI-музыкальных видео — сделал на 100% локальное open-source приложение (LTX Video desktop + Gradio), встречайте — Synesthesia (Активность: 306): Synesthesia автоматизирует создание AI-музыкальных видео, интегрируясь с локальными LLM вроде Qwen3.5-9b. Принимает три файла: изолированный вокал, полную аранжировку и текст песен — генерирует shot list, чередуя вокальные и сюжетные сегменты. Первый проход 3-минутного видео рендерится меньше чем за час на GPU 5090 в разрешении 540p. Проект на GitHub.
- Loose_Object_8311 предлагает добавить LoRA support (поддержку LoRA — метода дообучения для сохранения стиля персонажей) для консистентности между клипами.
- InternationalBid831 спрашивает о совместимости с Wan2GP на LTX2 вместо LTX Desktop для GPU 5070ti.
- Diadra_Underwood предлагает добавить выпадающее меню стилей — claymation, куклы, CGI для быстрого экспериментирования.
Словари подали в суд на OpenAI за «массовое» нарушение авторских прав и утверждают, что ChatGPT лишает издателей доходов (Активность: 718): Britannica и Merriam-Webster подали иск против OpenAI в Южном округе Нью-Йорка, утверждая, что ChatGPT нарушает их авторские права, используя исследованный контент без разрешения. Иск утверждает, что способность ChatGPT давать прямые ответы из усвоенного контента лишает издателей веб-трафика и рекламных доходов. Подробнее.
CEO спросил ChatGPT, как расторгнуть контракт на $250 млн, проигнорировал юристов и разгромно проиграл в суде (Активность: 465): CEO Krafton Чанхан Ким попытался расторгнуть $250 млн контракт с Unknown Worlds Entertainment, проконсультировавшись с ChatGPT вместо юридической команды. Суд решительно отклонил его иск. Отчёт 404 Media.
- RobinWood_AI подчёркивает, что ИИ должен усиливать юридические стратегии, а не заменять профессиональное суждение. ИИ может стресс-тестировать аргументы и набрасывать фреймворки, но не несёт ответственности.
- chiqu3n обсуждает ограничения ИИ в понимании специфических правовых контекстов — общие модели могут не учитывать специальное законодательство. Сравнивает с специализированным юридическим LLM «justicio», давшим более nuanced ответ.
- Dailan_Grace указывает на проблему авторитетного тона ИИ, который может ввести в заблуждение — модели часто уверенно представляют информацию без оговорок.
Джереми О. Харрис в пьяном виде назвал Сэма Альтмана из OpenAI нацистом на вечеринке Vanity Fair (Активность: 650): На Oscars-вечеринке Vanity Fair драматург Джереми О. Харрис столкнулся с Сэмом Альтманом, обвинив его в сходстве с нацистской фигурой из-за новой сделки OpenAI с Министерством обороны. Позже Харрис уточнил, что сравнил Альтмана с Фридрихом Фликом — немецким промышленником, осуждённым за военные преступления, а не с Геббельсом.