Ринат с канала @llm_under_hood достаточно давно собрал бенчмарк, основанный на бизнес-кейсах, в рамках которых он внедряет LLM. Это полезно, чтобы и самому отслеживать прогресс, и клиентам показывать, мол, такое можем решать, а с таким модели не справляются. Схожая идея была у меня и для нашего агентства, максимально понятное value.

Сначала Ринат посчитал результаты, и модели серии o1 оказались примерно на уровне передовых GPT-4o, которые так и так возглавляли топ. В целом, немного было удивительно, но не очень подозрительно:
1) OpenAI сразу задали ожидания и сказали, что эта линейка o1 нацелена на задачи, связанные с «science, coding, and math» (цитата с сайта). Да, конечно размышления прокачали, но явно есть области, где упор не делался
2) новая модель требует другой подход к заданию промптов, и старые запросы/инструкции могут не работать (даже «скорее не будут работать»)
3) OpenAI во время тестов зметили, что большое количество излишнего исходного контекста негативно сказывается на системе. То есть не рекомендуется брать 10 разных страниц текста, лишь одна из которых релевантна, загрузить в промпт и ждать чуда

Так что увидев результаты в топ-1 и топ-3 я подумал «ну ок, хорошо, что хоть бизнес-кейсы не сломали». В комментариях, конечно, нашлись добрые люди с сообщениями примерно такого рода:
> Их давят что-то выдать, выдали что-то ) медленное, дорогое и не сильно лучше

Ну понятно, снова скам от Альтмана, наобещали золотых гор а на деле нифига, LLM вышли на плато.

Далее цитирую пост Рината:
🚀 Update : в процессе ручной проверки результатов выяснилось, что в Reason часть моих evals была неправильной. Я знал, что с ними ни одна модель не справляется, поэтому не обращал внимания на результаты. А вот o1, оказывается, могли справиться! Я исправил логику проверки и пересчитал все модели.

😱 😀 🤣 🆒

(и ещё на всякий случай напомню, что у OpenAI уже гарантировано прям точно есть модель сильно лучше, чем o1-preview, и что они намеренно её не выпускают сейчас. Разницу в метриках можете посмотреть тут и тут — и стоит ожидать, что когда модель появится через месяц-два, цифры подрастут ещё чуть-чуть)

((и ещё ждём адаптации промптов и инструкций, Ринат! ну и новый бенчмарк...))

Пост 14.09.2024 23:11