Пост | Сиолошная

Удобный пост-выжимка с новостями о новой передовой модели OpenAI, o1:

— прирост качества происходит за счёт рассуждения LLM'кой перед ответом. Текст рассуждений не будет доступен, лишь краткая выжимка с верхнеуровневым описанием

— модели и раньше умели рассуждать, но делали это менее эффективно. Основной упор OpenAI сделали именно на то, чтобы при итеративном само-исправлении (рефлексии) и рассуждениях модель куда чаще приходила к правильному ответу

— o1 это не замена gpt-4o во всех задачах. Она СИЛЬНО лучше в математике/физике/программировании, лучше и чётче следует инструкциям, но потенциально хуже говорит на разных языках и обладает не большим количеством знаний о мире. Следует воспринимать модель как reasoner («мыслитель» по-русски, видимо). Мини-версия, со слов OpenAI, в этом плане сравнима с gpt-4o-mini, тут без откровений

— модель доступна сегодня всем платным подписчикам ChatGPT Plus с жестким лимитом: 30 сообщений В НЕДЕЛЮ большой модели и 50 - маленькой. Так что собирайте все свои хотелки и продумывайте требования к решению наперёд :)

— если вы часто пользовались API и потратили больше $1000 в прошлом, то модель будет доступна по API с ограничением 20 запросов/минута

— однако цены кусаются: младшая версия o1-mini стоит чуть-чуть дороже gpt-4o августовской...но при этом вы платите за все рассуждения (которые, напомню, не увидите!) - а их будет МНОГО. Поэтому реальная наценка будет в 3-10 раз, в зависимости от времени «раздумий» модели

— модель справляется с олимпиадными задачами по математике и программированию на уровне золотых медалистов международного тура; по физике в сложных тестовых заданиях, устойчивых к решению с использованием поисковика Google, она сравнима с PhD-level студентом (~75-80% правильных ответов)

— возможности использовать изображения, поиск в интернете, запускать код пока отключены; но появятся в ближайшем будущем

— сейчас контекст моделей ограничен 128k токенами, как и у старых версий. Однако следует ожидать увеличения в будущем — OpenAI заявляют, что сейчас модель в пике «думает» чуть больше пары минуты, а они хотят стремиться к часам и дням.

— как это всегда бывает с первым релизом, могут быть очень простые баги, когда модель прям на очевиднейшие вещи не отвечает/ведется на джейлбрейки. Это — нормально, уже через 2-3 месяца, когда модель перестанет быть preview, их станет сильно меньше

— у самих OpenAI есть уже не-preview модель, однако они её тестируют, и пока не готовы выпускать. Она лучше того, что досталось нам — смотрите на прикреплённой картинке

— новую модель НЕ НУЖНО промптить, не нужно просить отвечать как-то с размышлением, шаг за шагом или по-хитрому; всё это сделается самостоятельно под капотом за вас. Советы по промптингу от OpenAI — тут

— статьи, которые можно почитать, чтобы примерно прикинуть, как обучали модель: один , два , три . Они могут иметь ничего общего с реальностью, но копают в том же направлении

Ну и да, всем — добро пожаловать в Strawberry Era!

Пост 12.09.2024 22:19