Блог о разработке

Статьи о программировании, технологиях и анализе данных

HarmMetric Eval: бенчмарк для оценки метрик и судей при определении вредоносности ответов LLM
Выравнивание (alignment) больших языковых моделей (LLM) с человеческими ценностями — критическое условие их безопасного развертывания. Однако jailbreak-атаки способны обойти эту защиту и заставить...
Автор: bintocher|19 марта 2026
BiomedSQL: Text-to-SQL для научного рассуждения над биомедицинскими базами знаний
Биомедицинские исследователи всё чаще используют крупные структурированные базы данных для сложной аналитики. Но современные системы text-to-SQL (перевод текста в SQL-запросы) плохо справляются с...
Автор: bintocher|19 марта 2026
OpenAI превращает сжатие моделей в охоту за талантами с соревнованием «Parameter Golf» на 16 МБ
OpenAI бросила вызов исследователям: создать лучшую языковую модель, уложившись всего в 16 МБ. Компания использует это соревнование для поиска кадров. В открытом исследовательском конкурсе «Parameter...
Автор: bintocher|18 марта 2026
Аспиранты, ставшие судьями ИИ-индустрии
Модели искусственного интеллекта размножаются стремительно, а конкуренция накаляется. При таком количестве игроков на рынке какая модель окажется лучшей — и кто это решает? Arena (ранее LM Arena)...
Автор: bintocher|18 марта 2026
Пентагон планирует разрешить AI-компаниям обучать модели на секретных данных
Министерство войны США организует защищённые среды, где AI-компании смогут обучать модели на секретных данных. До сих пор моделям разрешалось лишь читать такие данные, но не учиться на них. Пентагон...
Автор: bintocher|18 марта 2026
Орбитальные дата-центры: Nvidia представила ИИ-модуль Vera Rubin для спутниковых группировок
Nvidia анонсировала платформу Space-1 Vera Rubin — вычислительный модуль для работы за пределами Земли. По заявлению компании, производительность инференса на нём в 25 раз выше, чем у серверных H100....
Gemini Embedding 2 и мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал
10 марта Google выпустил Gemini Embedding 2 — эмбеддинг-модель (превращает данные в числовые векторы для поиска по смыслу). Она работает не только с текстом, но и с картинками, видео, аудио и PDF....
Автор: bintocher|18 марта 2026
Последний экзамен человечества: насколько «умен» ИИ?
Научный подход не допускает веры на слово — любое утверждение становится фактом только после проверки. Знания не исключение: школы и университеты измеряют их экзаменами. С появлением генеративных ИИ...
Автор: bintocher|18 марта 2026
Mistral делает ставку на «собери свой AI»: французский стартап бросает вызов OpenAI и Anthropic на корпоративном рынке
Большинство корпоративных AI-проектов проваливаются не из-за нехватки технологий, а потому, что модели не понимают специфику бизнеса. Они обучены на интернет-данных, а не на многолетних внутренних...
Автор: bintocher|18 марта 2026
Осознание бенчмарка в результатах Claude Opus 4.6 на BrowseComp
BrowseComp — бенчмарк (набор тестов), проверяющий, насколько хорошо модели находят труднообнаружимую информацию в интернете. Как и многие бенчмарки, он уязвим к загрязнению данных. Ответы утекают в...
Автор: bintocher|18 марта 2026
Весна 2026: состояние open source AI на Hugging Face
Как изменился ландшафт open source AI за прошедший год в сфере конкуренции, географии, технических трендов и зарождающихся сообществ. Мы анализируем активность на Hugging Face по множеству метрик,...
Автор: bintocher|18 марта 2026
Mistral Small 4 выдает результат крупной модели за счёт 128 экспертных модулей
Mistral AI выпустила Mistral Small 4 — модель, объединяющую быстрые текстовые ответы, логическое рассуждение и обработку изображений. В ней 119 млрд параметров, но на каждый запрос активны лишь 6...
Автор: bintocher|18 марта 2026
NVIDIA GTC: Дженсен атакует OpenClaw, представляет Vera CPU и заявляет о бэклоге на $1 трлн к 2027 году
Состоялась конференция NVIDIA GTC. В ходе своего двухчасового keynote без суфлёра Дженсен Хуанг прошёлся по всей экосистеме NVIDIA и торжественно преподнёс свой пояс чемпиона InferenceMAX. Blackwell...
Автор: bintocher|18 марта 2026
ServiceNow Research представляет EnterpriseOps-Gym: бенчмарк для оценки agentic-планирования в реальных корпоративных сценариях
Большие языковые модели (LLM) переходят от формата диалога к автономным агентам. Такие агенты способны выполнять сложные профессиональные workflows. Однако их реальное внедрение в корпоративной среде...
Автор: bintocher|18 марта 2026
AiDesktop: Локальная разработка с агентами в мульти-поточном режиме?
Мне тут идея пришла в ходе новостей начала 2026 года, очень много появилось опен-сорс решений которые позволяют вести локальные разработки и быть просто помощниками в любую минуту - что захотелось...
Тэги:llmaidesktop
Автор: bintocher|25 января 2026