Benchmaxxx: почему бенчмарки не равны usefulness
Каждую неделю — новая модель которая “побеждает Claude/GPT по бенчмаркам”.
А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity’s Last Exam.
- Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе.
- Второй — 3000 сложных вопросов от экспертов из десятков дисциплин.
Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.
Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx.
Что почти не бенчмаркают
- Скорость инференса.
- Time to first token.
- Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
- Какие инструменты ей вообще доступны в среде?
- Насколько стабильны результаты от запуска к запуску?
Если выйдет модель которая получит 100% на SWEbv но она:
- заставляет ждать первого токена по минуте
- выдаёт меньше 20 tps
- ошибается при вызове команд (привет Gemini)
Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.
Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд.
В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу. Это от 2 марта.