Context rot: почему модель тупеет посреди разговора

Знакомо: длинный чат с агентом, всё шло хорошо, а на 40-м сообщении он начинает путать файлы, забывать что вы договорились тремя сообщениями назад, повторять одни и те же предложения. Вся информация чисто технически в чате есть — он её сам туда написал. Но “полезность” ответов деградирует с каждым шагом.

Это context rot.

Не только вблизи лимита

Интуиция подсказывает: ну окно же 200к токенов, пока я в пределах — всё ок. Нет. Модель с окном в 1M токенов начинает страдать уже на 50к. Деградация не ступенчатая (“работало → перестало”), а плавная — каждый килотокен контекста чуть-чуть снижает качество. Просто на 20к вы этого не замечаете, а на 80к уже бесит.

И это ещё и дорого

Gemini берёт $1.25/M токенов при коротком контексте и $2.50/M при длинном. Больше токенов = дороже и ХУЖЕ одновременно. Платите вдвое больше за ответы которые вдвое тупее. Скам!

Что делать нам, вайбкодерам

Изменились условия — редактируйте сообщение выше, не дописывайте новое. Каждое новое сообщение это +токены в контекст. Отредактировали — контекст не вырос.
Тема сменилась — новый чат. Не продолжайте разговор про деплой в чате где обсуждали архитектуру БД. Это разные контексты, они загрязняют друг друга.
Смотрите на процент оставшегося контекста в Claude Code / Codex. Этот индикатор не декоративный.
Параллельная задачка — другой агент. Не засоряйте контекст текущего. Кстати в Claude Code появилась интересная фича — прямо в середине общения с Sonnet можно попросить запустить подзадачу на Opus.
Skills, MCPs и прочее — не бесплатные. Каждый подключенный MCP сервер это токены в контексте. Каждый skill это описание которое занимает место. Помните пост про налог на контекст?

В следующих постах: RAG, RLM, subagent architectures — как с этим борются (или пытаются бороться).