Benchmaxxx: почему бенчмарки не равны usefulness

Каждую неделю — новая модель которая “побеждает Claude/GPT по бенчмаркам”.

А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity’s Last Exam.

Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе.
Второй — 3000 сложных вопросов от экспертов из десятков дисциплин.

Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.

Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx.

Что почти не бенчмаркают

Скорость инференса.
Time to first token.
Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
Какие инструменты ей вообще доступны в среде?
Насколько стабильны результаты от запуска к запуску?

Если выйдет модель которая получит 100% на SWEbv но она:

заставляет ждать первого токена по минуте
выдаёт меньше 20 tps
ошибается при вызове команд (привет Gemini)

Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.

Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд.

В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу. Это от 2 марта.