Железная башка становится ближе к железу

“Надо больше датацентров, больше GPU, больше мегаватт”.

Настоящий скачок в AI-инференсе, имхо, не в том чтобы поставить ещё +100k GPU в стойки. А в переходе на другой уровень абстракции железа: от универсального к узкоспециализированному.

Как было с CPU -> GPU, следующий шаг выглядит как специализация вплоть до “модель = чип”.

GPU — универсальный параллельный вычислитель, который индустрия AI переиспользовала из гейминга. GPU тащит с собой много “лишнего”: графический наследственный багаж, общую программируемость, общую архитектуру под широкий класс задач. Шляпа. Но рабочая!

ASIC (NPU на телефонах, кастомное железо от Google/Amazon) — идея такая что люди выпускают чипы с конкретным набором инструкций под конкретные ML-паттерны, грубо говоря выброшены рендеринг, шейдеры, всё лишнее из GPU - упор на необходимую математику. Такое уже проходили в биткойне.

На типовых нагрузках это лучше по цене/ватту и latency, чем универсальный GPU. Но проблема остаётся: веса модели хранятся в памяти и постоянно гоняются между памятью и вычислителем.

Wafer-scale (Cerebras) — попытка снять межчиповые bottleneck’и.

Идея такая — “чип” по сути становится ЦЕЛЬНОЙ пластиной: у Cerebras WSE-3 44 GB SRAM прямо на кристалле (для сравнения — у H100 около 50 MB on-chip кэша). Можно радикально уменьшить цену коммуникации между кусками вычисления и убрать часть задержки, которая раньше тратилась просто на передачу данных. Плюс в ту же сторону работает максимальное приближение памяти к вычислению: когда память не где-то “рядом”, а прямо на кристалле или очень близко к нему, цена движения данных падает ещё сильнее.

Hard-wired модель — предельная точка.

Не “веса загружаются в железо”, а “веса и структура уже физически в железе”. В идеале нет постоянного таскания параметров из внешней памяти: вычисление происходит там же, где зафиксирована модель.

Экономика

Главная стоимость инференса не в “умножить числа”, а в “привезти числа к месту умножения”.

Движение данных из памяти стоит энергии и времени. Поэтому чем больше модель, тем эффект заметнее: FLOPS растут быстрее, чем способность дешево кормить их данными.

НО вот нюанс “запеченных” моделей! hard-wired решение обновляется не через деплой ночью, а через новый tape-out. Ошибка в архитектуре стоит не багфикса, а месяцев и большого капитала.

Именно по этой причине я с нетерпением жду полноценную “стагнацию LLM”!

Если архитектуры скачут каждые полгода, никто не будет заливать их в кремний на миллиарды. Слишком высокий риск устареть до выхода с фабрики. А прогресс замедляется, архитектура стабилизируется. А стабильность — это именно то условие, при котором можно агрессивно инвестировать в специализированное железо.

И, как я неоднократно писал в постах выше, harness для модели имеет очень важную роль. Соответственно, я бы оч хотел чтобы будущее было с запеченным ИИ в датацентрах. Мб какие-то железные ускорители даже в консюмерские товары. Мол, новая модель Google Pixel 15 идёт с gemini 7. Не подпиской а АВТОНОМНЫМ физическим ускорителем! А уже при инференсе мы могли передавать совсем разный harness в зависимости от задачи.

В таком кейсе и экономика Anthropic/OpenAI выйдет в плюс из постоянных субсидий. А в идеале они вообще решат что дешевле свои чипы строить по старинке и начнут продавать такие ускорители!