Эксклюзивный тур по чиповой лаборатории Amazon: процессор Trainium, который покорил Anthropic, OpenAI и даже Apple
Вскоре после того как CEO Amazon Энди Джасси объявил о исторической инвестиционной сделке AWS с OpenAI на $50 млрд, Amazon пригласил меня на закрытый тур по лаборатории разработки чипов — сердцу этой сделки. Поездку оплатила (в основном*) сама компания.
Индустриальные эксперты пристально следят за чипом Trainium, созданным в этом центре. Он обещает более дешёвый AI inference (выполнение обученной модели для генерации ответов) и потенциально способен пошатнуть почти монопольное положение Nvidia.
Мне было любопытно, и я согласился.
Моими гидами стали директор лаборатории Кристофер Кинг (на фото справа) и директор по инженерии Марк Кэрролл (слева). Также Doron Aronson из PR-команды организовал визит (с ним я появлюсь на фото ниже).
Руководители чиповой лаборатории AWS Марк Кэрролл и Кристофер Кинг. Фото: TechCrunch/Julie Bort
AWS была основной облачной платформой Anthropic с ранних дней этой AI-лаборатории. Это партнёрство выдержало и подключение Microsoft в качестве облачного провайдера, и растущее сотрудничество Amazon с OpenAI.
По условиям сделки с OpenAI, AWS становится эксклюзивным провайдером нового инструмента для создания AI-агентов — Frontier. Если агенты станут таким же мегатрендом, как ожидает Кремниевая долина, это станет важной частью бизнеса OpenAI. Продержится ли эксклюзивность в объявленном виде — большой вопрос. На этой неделе Financial Times сообщила, что Microsoft может считать сделку OpenAI с Amazon нарушением собственного соглашения. По этому соглашению Redmond получает доступ ко всем моделям и технологиям OpenAI.
Почему AWS так привлекательна для OpenAI? В рамках сделки облачный гигант обязался предоставить OpenAI 2 гигаватта вычислительных мощностей на базе Trainium. Это колоссальное обязательство. Anthropic и собственный сервис Bedrock от Amazon уже расходуют чипы Trainium быстрее, чем компания успевает их производить.
Развернуто 1,4 млн чипов Trainium всех трёх поколений. Более 1 млн из них — чипы Trainium2, на которых работает Claude от Anthropic.
Изначально Trainium создавался для более быстрого и дешёвого обучения моделей (пару лет назад это был приоритет). Но теперь он настроен и для inference — процесса фактического выполнения модели для генерации ответов. Сейчас inference — главное узкое место в индустрии по производительности.
Пример: Trainium2 обрабатывает большую часть inference-трафика на сервисе Amazon Bedrock. Bedrock позволяет корпоративным клиентам AWS строить AI-приложения с использованием разных моделей.
«Наша клиентская база растёт так же быстро, как мы успеваем наращивать мощности», — говорит Кинг. «Bedrock однажды может стать таким же масштабным, как EC2», — добавляет он, имея в виду флагманский сервис вычислений AWS.
Чип Trainium3 от Amazon. Фото: Amazon
Trainium против Nvidia
Помимо альтернативы дефицитным и труднодоступным GPU от Nvidia, Amazon заявляет, что новые чипы на специализированных серверах Trn3 UltraServers обходятся до 50% дешевле при сопоставимой производительности. Сравнение — с классическими облачными серверами.
Вместе с Trainium3, выпущенным в декабре, команда разработала новые коммутаторы Neuron. Кэрролл называет эту комбинацию трансформационной.
«Это даёт нам колоссальное преимущество», — говорит Кэрролл. Коммутаторы позволяют каждому чипу Trainium3 напрямую общаться с каждым другим чипом в mesh-конфигурации (топология сети, где каждый узел соединён со всеми остальными). Это снижает задержки. «Именно поэтому Trainium3 бьёт всевозможные рекорды», особенно по показателю «цена за ватт».
Когда речь идёт о триллионах токенов в день, такие улучшения складываются в существенную экономию.
В 2024 году команду Amazon открыто похвалила Apple. Для обычно закрытой компании это редкий момент открытости. Директор по AI Apple публично описал, как она использовала другой чип этой команды — Graviton. Это энергоэффективный серверный CPU на архитектуре ARM и первый успешный чип подразделения. Apple также отметила Inferentia — чип, специально спроектированный для inference — и дала признание Trainium, который тогда был новинкой.
Эти чипы воплощают классическую стратегию Amazon: увидеть, что людям нужно купить, и создать собственную альтернативу, конкурирующую ценой.
Исторически главная проблема при смене чипов — затраты на миграцию. Приложения, написанные под чипы Nvidia, приходится перерабатывать для работы на других платформах. Процесс долгий, и разработчики неохотно идут на него.
Но команда AWS сообщает, что Trainium теперь поддерживает PyTorch — популярный open-source фреймворк для построения AI-моделей, включая многие из тех, что размещены на Hugging Face.
Переход, по словам Кэрролла, требует «по сути одной строки кода, затем перекомпиляции — и всё работает на Trainium». Иными словами, Amazon методично подтачивает доминирование Nvidia на рынке.
В этом месяце AWS также объявила партнёрство с Cerebras Systems, интегрируя inference-чип этой компании на серверах с Trainium. Amazon обещает сверхбыструю AI-производительность с минимальными задержками.
Но амбиции Amazon выходят за рамки самих чипов. Компания проектирует и серверы для них. Помимо сетевых компонентов, команда разработала Nitro — аппаратно-программный комплекс для виртуализации, который позволяет запускать множество изолированных экземпляров ПО на одном сервере. Также разработана передовая технология жидкостного охлаждения и серверные sled-модули (на фото ниже), в которых всё это размещается.
Всё это — ради контроля над стоимостью и производительностью.
Тур по лаборатории AWS в Остине: sled-модуль с компонентами. Фото: TechCrunch/Julie Bort
Круглосуточный «bring-up»
Подразделение по разработке собственных чипов AWS появилось, когда облачный гигант купил израильскую чиповую компанию Annapurna Labs в январе 2015 года примерно за $350 млн. Теперь у команды больше 10 лет опыта проектирования чипов для AWS. Подразделение сохранило свои корни и название Annapurna — логотип компании повсюду в офисе.
Лаборатория расположена в современном здании с хромированными окнами в престижном районе Остина «The Domain» — пешеходной зоне с магазинами и ресторанами, которую иногда называют Кремниевой долиной Остина.
Офис выглядит как типичное технкорпоративное пространство: кабинеты, зоны для общения, переговорки. Но в глубине одного из верхних этажей, с панорамным видом на город, находится собственно лаборатория.
Забитая стеллажами лаборатория — размером с две большие переговорные — шумное промышленное пространство из-за вентиляторов оборудования. Выглядит как помесь школьного кружка технического творчества и голливудской декорации высокотехнологичной лаборатории. Только инженеры одеты в джинсы, а не в белые халаты.
Чиповая лаборатория AWS в Остине. Фото: TechCrunch/Julie Bort
Чиповая лаборатория AWS в Остине. Фото: TechCrunch/Julie Bort
Здесь чипы не производят — поэтому защитных костюмов не потребуется. Trainium3 — передовой 3-нанометровый чип, производимый TSMC, признанным лидером в этом техпроцессе. Другие чипы производит Marvell.
Но именно здесь происходит магия «bring-up».
«Silicon bring-up — это момент, когда вы впервые получаете чип, и это похоже на большую ночную вечеринку. Вы остаётесь здесь на всю ночь, как на lock-in», — объясняет Кинг. После 18 месяцев работы чип впервые активируется, чтобы подтвердить, что он работает как задумано. Команда даже снимала процесс bring-up для Trainium3 и выложила видео на YouTube.
Спойлер: никогда не проходит без проблем.
У прототипа Trainium3 изначально было воздушное охлаждение, как у предыдущих версий. Текущий чип оснащён жидкостным охлаждением, что даёт энергетические преимущества и стало серьёзным инженерным достижением.
Во время bring-up выяснилось, что размеры крепления чипа к воздушному радиатору не совпадают — чип нельзя было активировать.
Команда не растерялась: «мы тут же взяли шлифовку и просто начали стачивать металл», — рассказывает Кинг. Чтобы шум не портил атмосферу пицечной вечеринки, они незаметно ушли шлифовать в переговорную.
Бессонные ночи и решение проблем на ходу — «это и есть суть silicon bring-up», — говорит Кинг.
В лаборатории даже есть сварочная станция. Инженер аппаратной лаборатории Исаак Гевара демонстрирует сварку микроскопических компонентов интегральных схем под микроскопом. Работа настолько сложная, что старший руководитель Кэрролл честно признался, что не смог бы её выполнить — чем вызвал смех Гевары и остальных инженеров.
Тур по лаборатории AWS в Остине: сварочная станция. Фото: TechCrunch/Julie Bort
В лаборатории также собраны и кастомные, и коммерческие инструменты для тестирования и диагностики чипов. Инженер-сигнальщик Arvind Srinivasan демонстрирует, как лаборатория тестирует каждый микроскопический компонент чипа:
Тур по лаборатории AWS в Остине: тестовое оборудование. Фото: TechCrunch/Julie Bort
Sled-модули — звёзды лаборатории
Но главное украшение лаборатории — целый ряд, где выставлены все поколения спроектированных командой sled-модулей.
Тур по лаборатории AWS в Остине: стена sled-модулей. Фото: TechCrunch/Julie Bort
Sled-модули — это корпуса, в которых размещаются AI-чипы Trainium, CPU-чипы Graviton, а также вспомогательные платы и компоненты. Установите их в стойку вместе с сетевым компонентом (тоже кастомным от этой команды) — и получите системы, стоящие за успехом Claude от Anthropic.
Вот sled-модуль, который демонстрировался на конференции AWS re:Invent в декабре:
Тур по лаборатории AWS в Остине: sled-модуль Trainium3. Фото: TechCrunch/Julie Bort
Проверены Anthropic и OpenAI
Я ожидал, что во время тура гиды будут расхваливать сделку с OpenAI. Но нет.
Сдержанность могла быть связана с упомянутой юридической неопределённостью вокруг сделки. Но у меня сложилось впечатление, что эти инженеры на передовой (сейчас они разрабатывают следующую версию — Trainium4) ещё не успели плотно поработать с OpenAI. Их ежедневная работа пока сфокусирована на потребностях Anthropic и самого Amazon.
Сейчас крупнейшая партия чипов Trainium2 развёрнута в рамках Project Rainier — одного из крупнейших AI-кластеров в мире. Он запустился в конце 2025 года на 500 тыс. чипов и используется Anthropic.
Но в главном офисе на стене висел монитор с цитатой о том, что OpenAI будет использовать Trainium. Гордость была заметна, пусть и сдержанная.
Помимо этой лаборатории, у команды есть собственный закрытый дата-центр для контроля качества и тестирования. Небольшая поездка на машине — и вы на месте. Он не обслуживает рабочие нагрузки клиентов, поэтому размещён в colocation-площадке (коммерческом дата-центре, где разные компании арендуют место для серверов), а не в дата-центре AWS.
Безопасность строгая: жёсткие протоколы входа в здание и доступа к зоне Amazon.
Система охлаждения дата-центра настолько шумная, что беруши обязательны. В воздухе висит едкий запах нагретого металла. Место не для долгих прогулок.
Автор и Doron Aronson в дата-центре лаборатории AWS в Остине, защищая слух рядом с работающими серверами. Фото: TechCrunch/Julie Bort
Здесь — ряды серверов, забитых sled-модулями, объединяющими все новейшие кастомные чипы Amazon: Graviton CPU, Trainium3 с жидкостным охлаждением, Amazon Nitro — всё это активно считает. Охлаждающая жидкость циркулирует по замкнутому контуру и повторно используется, что, по словам инженеров, также снижает экологический след.
Так выглядит текущий Trn3 UltraServer: sled-модули сверху и снизу, а в середине — коммутаторы Neuron. На фото инженер по аппаратной разработке David Martinez-Darrow проводит обслуживание sled-модуля:
Дата-центр лаборатории AWS в Остине. Фото: TechCrunch/Julie Bort
Внимание к команде всегда было высоким, но в последнее время контроль заметно усилился.
CEO Amazon Энди Джасси пристально следит за лабораторией и публично хвалит её продукты, как гордый отец. В декабре он заявил, что Trainium уже стал бизнесом с многомиллиардной выручкой для AWS и назвал его одной из самых волнующих технологий AWS. Он также упомянул чип при объявлении сделки с OpenAI.
Команда чувствует давление. Инженеры работают круглосуточно по три-четыре недели вокруг каждого события bring-up, чтобы устранить проблемы и запустить чипы в массовое производство и размещение в дата-центрах.
«Критически важно как можно быстрее доказать, что чип действительно будет работать», — говорит Кэрролл. «Пока что у нас всё отлично получается»
Раскрытие: Amazon оплатил авиабилет и одну ночь в местном отеле. В соответствии с принципом лидерства «Бережливость», это было место в хвосте самолёта и скромный номер. TechCrunch оплатил остальные расходы — такси, платный багаж и прочее. (Да, я зарегистрировала багаж на однодневную поездку. Я такая привереда.)
