Налог на контекст: что агент грузит до первого промпта

читаем постик в данном тгк о важности минимизации контекста
заходим в пустой клодкод
занят уже 21килотокен контекста
???

Предлагаю пообщаться про этот налог - что за такой текст отправляется ещё до нашего первого промпта?

Что грузится заранее

System prompt — должностная инструкция, объясняет кем ллмка является и глобально что вообще происходит.
https://github.com/asgeirtj/system_prompts_leaks/blob/main/Anthropic%2Fclaude-code.md
System tools: 17.4kt (8.7%) — самый жирный кусок. Описания ~18 инструментов: bash, grep, read, write, edit, web search и др. По каждому название, параметры, ограничения, примеры использования. 17 килотокенов чтобы модель знала чем она умеет пользоваться. И это только встроенные)) Объяснения как использовать ваши МСР сервера загрузятся в эту часть (как ИМЕННО и как подробно зависит от агента. уже есть оптимизации которые помогают не вставлять полную спецификацию сюда)
Memory — правила, соглашения, стек проекта (CLAUDE.md, AGENTS.md, *.md). Плюс MEMORY.md — что модель “выучила” в прошлых сессиях. Плюс git state. При старте сессии Claude Code загружает шесть слоёв, вообщем целая инфраструктура для того чтобы вести ллм в контекст конкретного проекта.
Skills — тут при нулевом количестве налог не большой.
Autocompact buffer: 33k (16.5%) — зарезервировано под сжатие контекста когда окно начнёт заполняться. То есть платим за какую-то будущую операцию которая вообще скорее всего и не произойдёт. Терпим.

Вместе это называется harness — обвязка вокруг модели. И вот что забавно: эта обвязка влияет на результат больше чем сама модель)

Claude Opus 4.5 набирает 42% на CORE-Bench с одной обвязкой и 78% с другой. Sonnet 4: 33% vs 47%. Поменяли только обвязку своего агента — плюс 13.7 пунктов на бенчмарке!

У разработчиков этих обвязок тоже есть тренды. Паттерн один: все выкидывают лишнее из контекста)

Vercel убрал 80% инструментов у своего агента. Шаги: 100 → 19. Латенси: 724 → 141 сек. И агент начал выполнять задачи которые раньше проваливал. Не быстрее — вообще начал.
Cursor столкнулся с тем что MCP серверы тащат десятки тулов с длинными описаниями, большинство не используются. Решение: агент видит только названия, полные описания подтягиваются когда нужны. Минус 47% токенов.
Manus переписывал фреймворк пять раз. Каждый раз — выкидывал. Их цитата: “самые большие улучшения приходили от удаления, не добавления”.

Но опять же есть контринтуитивный пример — TodoWrite у Claude Code. Инструмент-пустышка, no-op, ВООБЩЕ ничего не делает. Но заставляет агента записать план — и на длинных задачах это якорь от context rot. Казалась бы, пытаемся сохранить каждый токен и сделать каждый инструмент максимально многофункциональным… но вот бывают ситуации когда абсолютно фейковый инструмент оказался полезнее настоящих)

Всё не просто, коллеги, как же всё не просто.

Ссылка на статью “Agent harness is the real product”.

И вот интересная статья “CLI is all you need”.

О том, что заполнение контекста MCP серверами становится проблемой — проще написать CLI и дать ллм им пользоваться. Она от 11 февраля и уже не совсем актуальна, но описанная тенденция сохраняется. Лаконичное оформление задачи и забота о контексте это важно и не тривиально это от 3 марта.