Пост | Сиолошная

Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU , посмотрел на прогресс моделей (по обоим наборам проблем современные LLM решают уже 90%+) и понял, что пора придумать новый набор задачек. Dan называет его «Последним экзаменом человечества» («Humanity's Last Exam», не шутка).

Вопросы может присылать каждый. Они должны быть экспертного уровня (человек с улицы не решит) и не быть скопированными с интернета (это чтобы модели не могли их запомнить). Всего будет не менее тысячи вопросов, и у каждого есть возможность поучаствовать — если ваш вопрос отберётся, то вы получите от $500 до $5000.

Фишка в том, что прямо на сайте в форме подачи вопроса вы указываете ответ, а затем происходит проверка:
1. 3 передовые модели пытаются ответить на вопрос / решить задачу
2. Если все лажают — в дело вступают свежеприготовленные o1-mini и o1-preview от OpenAI.

Если по итогу все 5 моделей ошиблись — открывается возможность отправки. По сути, это базовая верификация, что ваш вопрос сложен для систем сегодняшнего дня. И пишу я этот пост как раз для того, чтобы вы — даже если у вас нет подписки на ChatGPT для доступа к o1 — могли опробовать навыки передовых LLM. Правда есть парочка ограничений:
1. Вопросы не должны быть просто вопросами с подвохом. Бородатое «А и Б сидели на трубе» не подойдет (ну и это не экспертный вопрос).
2. Вопросы не должны быть просто задачей на счёт или вычисление — зачем, если LLM может вызвать Python? Такая задача ничего не проверяет.
3. Вопросы только на английском языке.

Так что если вы эксперт в какой-то области (особенно вне IT), и у вас есть сформулированная проблема (для которой вы знаете ответ) — обязательно попробуйте закинуть на сайт и посмотреть, справляются ли модели. Это даже чисто из интереса стоит опробовать, нежели в погоне за наградой за вопрос — тем более ответ будет сразу от 5 моделей!

Ссылка: https://agi.safe.ai/submit (никакой регистрации НЕ НУЖНО)

Также выкладывайте в комментарии интересные попытки, особенно если LLM смогли вас удивить и ответить правильно, хотя вы ждали промашки!

Пост 18.09.2024 02:23