Каждую неделю — новая модель которая “побеждает Claude/GPT по бенчмаркам”.

А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity’s Last Exam.

  • Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе.
  • Второй — 3000 сложных вопросов от экспертов из десятков дисциплин.

Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.

Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx.

Что почти не бенчмаркают

  • Скорость инференса.
  • Time to first token.
  • Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
  • Какие инструменты ей вообще доступны в среде?
  • Насколько стабильны результаты от запуска к запуску?

Если выйдет модель которая получит 100% на SWEbv но она:

  • заставляет ждать первого токена по минуте
  • выдаёт меньше 20 tps
  • ошибается при вызове команд (привет Gemini)

Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.

Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд.

В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу. Это от 2 марта.