Пост | Сиолошная

Сентябрь 22

Проснулись-потянулись, посмотрели свежее 20-минутное видео от Andrej Karpathy про историю создания LLM.C — его сайд-проекта для тренировки и использования аналога GPT-2.

Andrej рассказывает, что он начинал делать одну из своих лекций с PyTorch, и модель обучалась с использованием torch.compile (для ускорения за счёт оптимизаций). Но почему-то после этого он не мог её запускать для тестирования, не мог получить результаты — и видел разные ошибки. Тогда ему в голову пришла чудная идея — «я сделаю всё сам, перепишу всё с нуля на C».

После первого подхода и публикации кода в репозиторий прилетели программисты со всего интернета, начали переписывать модель на CUDA (для запуска на GPU),внедрять оптимизации — и по итогу код тренировки на одном сервере с 8 GPU был на 19% быстрее PyTorch и экономил 29% памяти. Но вся библиотека была заточена ровно на одну архитектуру и в относительно ограниченном сценарии — например, не поддерживалась распределённая тренировка (на нескольких серверах) и формат данных FP8. Сейчас это добавляют энтузиасты, плюс скоро появится поддержка не только GPT-2, но и LLAMA-3.1.

Сама имплементация должна была стать частью урока, где Andrej по шагам проходится по всем частям модели и стека тренировки, ведь там всё в одном файле и с минимумом абстракций. Относительно легко для постепенного погружения. Правда с добавлением всего, что связано с CUDA, порог входа поднялся (Karpathy кстати рекомендует вот этот блогпост для вката в программирования на CUDA).

По сути, вся LLM.C — это выборка узкой части функционала из всего того множества, что предлагают современные фреймворки, и экстремальная оптимаизация под один кейс. За счёт этого и получается быть эффективнее, избавившись от ненужного, лишнего. Под конец Andrej поднимает вопрос: «а что если LLM в ближайшем будущем станут такими оптимизторами всех приложений и программ? Для каждой будет написана более эффективная версия с учётом конкретной специфики и сценариев использования».

Меня давно терзал схожий вопрос — на сколько % можно будет ускорить Linux, если все программисты откажутся от дальнейшего развития и новых фичей и сосредоточатся на переписывании чуть ли не с нуля, но уже со знанием целевой картины. Это ж могло бы сэкономить миллиарды долларов во всем мире!

Картинка: Andrej начал проект будучи в отпуске на Мальдивах, лежа в бунгало или около него. Cracked. А как вы проводите отпуск?

Пост 22.09.2024 14:07

Сентябрь 21

Сиолошная

От слов к делу — Microsoft подписали контракт на покупку любого количества энергии, производимой на американской АЭС Three Mile Island, в следующие 20 лет. Эта АЭС — как Чернобыльская станция в СССР: в 1979-м году там произошла авария на одном из двух блоков. Это была крупнейшая авария в истории коммерческой атомной энергетики США, которая усилила уже существовавший кризис и вызвала всплеск антиядерных настроений в обществе. Хотя всё это и не привело к мгновенному прекращению роста атомной энергетической отрасли США, её историческое развитие было остановлено. После 1979 и до 2012 года ни одной новой лицензии на строительство АЭС не было выдано, а ввод в строй 71 ранее запланированной станции был отменён — ушла эпоха.

Первый (из двух) блоков станции в порядке, он работал до 2019-го года (на ЧАЭС тоже после выхода из строя четвертого блока продолжалась выработка энергии на остальных трёх — вплоть до 2000-го года). Но его решено было остановить по экономическим причинам: столько энергии не было нужно, да и в США появились более дешёвые источники выработки.

Старющий реактор в штате Пенсильвания должны перезапустить к 2028-му, на АЭС вернутся ~600 специалистов — и всё это для того, чтобы получить лишние 835 мегаватт энергии для подпитки датацентров. Этого примерно хватит для содержания 700'000 домов в США, но всё уйдет на обучение GPT-N+1 и генерацию картинок 😐

Google не отстаёт — буквально на днях СЕО Alphabet Sundar Pichai хвастался , что у них уже в работе гигаваттный датацентр, и что его хотят подпитывать современными небольшими модульными ядерными реакторами. Ну и новости про Oracle/Amazon не забываем — те тоже ударились в ядерку.

Кажется, AI гонка и нехватка энергии для будущих датацентров подстегнули развитие атомной энергетики в США как никто другой в последние 40 лет. Интересно, что в планах дальше у OpenAI x Microsoft и Co?

Подпись к мему:
Я не против ядерной энергетики, но перезапуск THREE MILE ISLAND, потому что Sam Altman нужно больше гигаватт, чтобы выяснить, сколько букв «r» в слове «strawberry» — это знаменательная веха в раздутии пузыря искусственного интеллекта.

Sama 🤝 Мирный Атом

Пост 21.09.2024 11:12

Сентябрь 20

Сиолошная

Через минуту премьера полного интервью с разработчиками модели о1 из OpenAI. До этого мы видели лишь первые 3 минутки.

https://youtu.be/tEzs3VHyBDM?si=sUxvc53ccmf_qgIY

UPD: сильно интересного ничего не рассказали, самое важное было в первых минутах, которые публиковали ранее. Цитаты:
1. “Model with RL is better at finding new CoT steps than humans”
2. “Emergence of self critique was a powerful moment”
3. “Through planning, through error correction… it’s able to solve new problems in the world"
4. “New paradigm [of training] is an entirely new way to put more compute into the model”

Пост 20.09.2024 22:16

Сентябрь 20

Сиолошная

Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе , меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis , пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 3 3 0 tok/s .
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23 . Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~ 50 раз . И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg . 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67 . Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

Пост 20.09.2024 12:39

Сентябрь 19

Сиолошная

Флеш-новости 4 (для тех, кто пережил два лонга за полторы недели 🚬 ):

— CEO GitHub тизерит появление моделей o1 завтра в своём продукте. Это может быть как рядовая замена модели, не привнёсшая ничего нового с точки зрения UX, так и кардинальное улучшение Copilot , который теперь будет гораздо лучше планировать изменения в коде и размышлять о том, что имел в виду пользователь.

— Ходят слухи , что, возможно, в ближайшее время (чуть ли не на этой неделе) Google представит новую Gemini (может быть 2.0, может быть Ultra — её же не обновили до 1.5). Особый упор будет сделан на программирование. Вообще Google точно делал исследовательскую работу в том же направлении, что и OpenAI для o1, потому не удивлюсь, если будут схожий анонс с теми же акцентами. Google даже может превзойти OpenAI за счёт большего количества вычислительных мощностей на тренировку LLM — Sam Altman озвучивал такие опасения менеджерам в Microsoft.

— несколько представителей AI индустрии сходили в Сенат США, где их опрашивали про регуляции. Там была и Helen Toner, бывший член совета директоров, уволившаяся после возвращения Sam Altman. В своём вводном слове она говорила, что большинство регуляций надо направить на системы будущего, а не текущего поколения, и что дипфейки и GenAI это конечно опасно, но нужно думать про более глобальное влияние. И последующие 2 часа в Сенате говорили про... дипфейки и подмену голоса в звонках 🔥 .

— ещё в этих слушаниях поднялась интересная тема разницы компенсаций в индустрии и в гос. структурах, и что никакой шарящий человек не пойдет работать в агентство-регулятор на зп в 5-10 раз меньше. Что-то с этим нужно делать.

— Microsoft и BlackRock (крупнейшая в мире инвест-компания, под управлением которой находится имущества на 10 триллионов долларов, примерно 8% мирового ВВП) планируют открыть инвест-фонд на... 30 миллиардов долларов. А ещё он может быть расширен до $100B 😨 . Цель фонда — инвестиции в инфраструктуру для AI. Обратите внимание, что это не то же, что инвестировать в OpenAI. Это именно про налаживание производства и цепочек поставок, про строительство датацентров и электростанций. Вероятно, BlackRock считает, что в ближайшие годы будет дефицит, и они хотят сыграть на опережение. Партнёрами также выступит MGX, крупный фонд из ОАЭ.

— неделю назад CEO OpenAI, Anthropic, Nvidia и президент Google ходили в Белый дом для обсуждения будущего электроэнерегетики, инфраструктуры под AI, производства полупроводников. Позже на той же неделе было объявлено о создании рабочей группы по AI Datacenter Infrastructure. Департамент энергетики (Department of Energy звучит несерьезно, но они отвечают за ядерное оружие и энергетику, а также под их контролем находятся самые мощные публичные суперкомпьютеры ) выделит отдельную команду под AI-датацентры и общение с частным сектором. Также DOE будет рассматривать выведенные из эксплуатации места добычи угля в качестве источников сырья для выработки энерегии, на основе чего будет приниматься решени о размещении датацентров и фабрик.

— люди всё ещё не верят, что AI продолжит развиваться семимильными шагами (банально за счёт масштабирования), и думают, что вот-вот застопорится.

К этому часу у меня всё 😁 😀

Пост 19.09.2024 16:17

Сентябрь 18

Сиолошная

Пост 18.09.2024 21:24

Сентябрь 18

Сиолошная

Пост 18.09.2024 20:57

Сентябрь 18

Сиолошная

LMSYS Arena обновила рейтинг, добавив свежие модельки о1. Напомню, что LLM этого семейства не позиционируются как хорошие во всём, и заточены на науку (математика/физика/программирование). OpenAI не обещали улучшений по всем фронтам (ну это вы знаете, если читали сегодняшний лонг ).

ОДНАКО

Модели всё равно в топе - на первом и третьем месте. И это с учётом контроля по стилю и длине - то есть к рейтингу модели применяют некоторую поправку, которая штрафует за очень длинные ответы, а также те, что содержат много списков, заголовков итд. Детали в официальном блоге тут .

В математике отрывы вообще неприличные (второй скрин).

А ещё обратите внимание, что обновилась модель ChatGPT (это та, которая заточена на диалоги, и именно к ней получают доступ пользователи сайта chatgpt) - она заработала +20 очков относительно предыдущей версии. То есть o1 лучше ChatGPT которая лучше прошлых ChatGPT которые лучше всех остальных моделей.

😦

Источник

Смотреть рейтинги тут

UPD: ещё добавили в сравнение 16-битную версию LLAMA-3.1-405B. Она в рейтинге выше, чем обычная пожатая восьмибитная, что ожидаемо. Разница наибольшая в reasoning-heavy задачах

Пост 18.09.2024 20:57

Сентябрь 18

Сиолошная

В конце прошлой недели OpenAI анонсировали и сразу же выпустили новую модель. Вопреки ожиданиям, её назвали не GPT-5, а o1. Компания утверждает, что для них сброс счётчика линейки моделей к единичке знаменует собой переход к новой парадигме, и что эта нейросеть и вовсе демонстрирует новый уровень возможностей ИИ. Возможностей, ранее вызвавших переживания и опасения у некоторых внутренних исследователей OpenAI — да настолько, что они пожаловались совету директоров!

В свежем лонге разбираемся, что же именно произошло, как и почему появилась o1, и попытаемся понять, как правильно выстроить ожидания от этой модели.
▀▀▀▀▀▀▀▀▀▀
Читать тут: https://habr.com/ru/companies/ods/articles/843250/
(обязательно делитьесь с друзьями и жмите стрелочку вверх 🔼 под статьёй!)
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Пост 18.09.2024 09:04

Сентябрь 18

Сиолошная

Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU , посмотрел на прогресс моделей (по обоим наборам проблем современные LLM решают уже 90%+) и понял, что пора придумать новый набор задачек. Dan называет его «Последним экзаменом человечества» («Humanity's Last Exam», не шутка).

Вопросы может присылать каждый. Они должны быть экспертного уровня (человек с улицы не решит) и не быть скопированными с интернета (это чтобы модели не могли их запомнить). Всего будет не менее тысячи вопросов, и у каждого есть возможность поучаствовать — если ваш вопрос отберётся, то вы получите от $500 до $5000.

Фишка в том, что прямо на сайте в форме подачи вопроса вы указываете ответ, а затем происходит проверка:
1. 3 передовые модели пытаются ответить на вопрос / решить задачу
2. Если все лажают — в дело вступают свежеприготовленные o1-mini и o1-preview от OpenAI.

Если по итогу все 5 моделей ошиблись — открывается возможность отправки. По сути, это базовая верификация, что ваш вопрос сложен для систем сегодняшнего дня. И пишу я этот пост как раз для того, чтобы вы — даже если у вас нет подписки на ChatGPT для доступа к o1 — могли опробовать навыки передовых LLM. Правда есть парочка ограничений:
1. Вопросы не должны быть просто вопросами с подвохом. Бородатое «А и Б сидели на трубе» не подойдет (ну и это не экспертный вопрос).
2. Вопросы не должны быть просто задачей на счёт или вычисление — зачем, если LLM может вызвать Python? Такая задача ничего не проверяет.
3. Вопросы только на английском языке.

Так что если вы эксперт в какой-то области (особенно вне IT), и у вас есть сформулированная проблема (для которой вы знаете ответ) — обязательно попробуйте закинуть на сайт и посмотреть, справляются ли модели. Это даже чисто из интереса стоит опробовать, нежели в погоне за наградой за вопрос — тем более ответ будет сразу от 5 моделей!

Ссылка: https://agi.safe.ai/submit (никакой регистрации НЕ НУЖНО)

Также выкладывайте в комментарии интересные попытки, особенно если LLM смогли вас удивить и ответить правильно, хотя вы ждали промашки!

Пост 18.09.2024 02:23

Сентябрь 14

Сиолошная

Ринат с канала @llm_under_hood достаточно давно собрал бенчмарк, основанный на бизнес-кейсах, в рамках которых он внедряет LLM. Это полезно, чтобы и самому отслеживать прогресс, и клиентам показывать, мол, такое можем решать, а с таким модели не справляются. Схожая идея была у меня и для нашего агентства, максимально понятное value.

Сначала Ринат посчитал результаты, и модели серии o1 оказались примерно на уровне передовых GPT-4o, которые так и так возглавляли топ. В целом, немного было удивительно, но не очень подозрительно:
1) OpenAI сразу задали ожидания и сказали, что эта линейка o1 нацелена на задачи, связанные с «science, coding, and math» (цитата с сайта). Да, конечно размышления прокачали, но явно есть области, где упор не делался
2) новая модель требует другой подход к заданию промптов, и старые запросы/инструкции могут не работать (даже «скорее не будут работать»)
3) OpenAI во время тестов зметили, что большое количество излишнего исходного контекста негативно сказывается на системе. То есть не рекомендуется брать 10 разных страниц текста, лишь одна из которых релевантна, загрузить в промпт и ждать чуда

Так что увидев результаты в топ-1 и топ-3 я подумал «ну ок, хорошо, что хоть бизнес-кейсы не сломали». В комментариях, конечно, нашлись добрые люди с сообщениями примерно такого рода:
> Их давят что-то выдать, выдали что-то ) медленное, дорогое и не сильно лучше

Ну понятно, снова скам от Альтмана, наобещали золотых гор а на деле нифига, LLM вышли на плато.

Далее цитирую пост Рината:
🚀 Update : в процессе ручной проверки результатов выяснилось, что в Reason часть моих evals была неправильной. Я знал, что с ними ни одна модель не справляется, поэтому не обращал внимания на результаты. А вот o1, оказывается, могли справиться! Я исправил логику проверки и пересчитал все модели.

😱 😀 🤣 🆒

(и ещё на всякий случай напомню, что у OpenAI уже гарантировано прям точно есть модель сильно лучше, чем o1-preview, и что они намеренно её не выпускают сейчас. Разницу в метриках можете посмотреть тут и тут — и стоит ожидать, что когда модель появится через месяц-два, цифры подрастут ещё чуть-чуть)

((и ещё ждём адаптации промптов и инструкций, Ринат! ну и новый бенчмарк...))

Пост 14.09.2024 23:11

Сентябрь 13

Сиолошная

Если за вчерашний вечер вы исчерпали лимиты сообщений моделям o1 и o1-mini в ChatGPT, то возрадуйтесь: OpenAI сжалились и сбросили всем счётчик. Теперь можно снова отправить 50 сообщений в младшую и 30 в старшую версии.

Бонусная информация:
— o1-mini планируется добавить в бесплатный тир, то есть каждый сможет с ней общатсья
— сотрудник OpenAI рассказал , что у них скоро появятся модели с более длинным контекстом (в том числе для размышлений у o1). А то как-то несолидно, конкуренты тут давно обогнали :(
— модель o1-preview — это ранняя версия уже законченной o1. Они одного размера, и вторая получена из первой дообучением. Но по какой-то причине доступа, увы, не дают. По метрикам в некоторых задачах там прям сильный разрыв.

Пост 13.09.2024 22:52

Сентябрь 13

Сиолошная

10'000 обезьян и 🥇IOI

Я уже пару месяцев как работаю в OpenAI, так что времени на посты сюда почти не осталось. Нужно исправляться. Вчера мы выпустили новую модель, которая думает перед тем как отвечать. Я даже успел попасть в список контрибьюторов . Но пост не об этом — хочу рассказать про результат, который упоминается в посте про новую модель, кажется мне очень неочевидным, но мало обсуждаемый.

Как известно , если 10000 обезьян посадить за пишущие машинки, и дать им бесконечно времени, то рано или поздно они возьмут золото на IOI . Наша новая модель гораздо лучше справляется с задачами, где нужно думать, чем все предыдущие модели, но все еще в абсолютных значениях делает это довольно плохо. Ее рейтинг CodeForces оценивается примерно в 1800, и это очень далеко от того, чтобы взять даже бронзовую медаль на IOI.

Нам стало интересно, можно ли просто увеличив количество вычислений, добиться лучших результатов. Сетап был такой. Давайте модель попросим 10000 раз решить каждую задачу, а потом выберем лучшие решения. Интуитивно кажется, что для решения сложных олимпиадных задач обычно нужно придумать какую-то красивую идею, и, если модель имеет CF рейтинг 1800, то от увеличения количества попыток, особо ничего не поменяется. Она просто не сможет ее придумать.

На практике же оказалось все наоборот. Среди 10000 попыток оказываются такие, когда модель случайно подумала в нужную сторону, и придумала правильную идею. В итоге, если отфильтровать самые лучшие попытки, то их достаточно, чтобы получить золото на IOI (и мне кажется это очень крутой результат!). Правда, как именно находить лучшие решения, если у вас нет возможности протестировать их все, не очень понятно.

Получается, что если вам не жалко потратить очень много денег на кучу попыток решить задачу, и вы придумаете как из 10000 решений выбирать самые лучшие, то уже с текущим уровнем развития AI можно довольно хорошо решать олимпиадные задачи.

Пост 13.09.2024 17:07

Сентябрь 13

Сиолошная

Удивлён, что про это не написал никакой другой канал. Придётся делать самому 🥺

В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут ).

По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай.

Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему.

Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки.

Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).

Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал.

Источник — отчёт OpenAI

Пост 13.09.2024 16:24

Сентябрь 12

Сиолошная

Официальный советы по промпт-инженерингу o1:

Держите промпты простыми и прямолинейными: модель o1 превосходно понимает и отвечает на краткие, четкие инструкции без необходимости в обширных объяснениях

Избегайте промптов с цепочкой рассуждений (речь про Chain Of thoughts и «думай шаг за шагом»):
так как модель выполняет логические выводы внутри себя, не нужно побуждать ее «думать шаг за шагом» или «объяснять своё рассуждение вслух»

Используйте разделители для ясности: используйте разделители, такие как тройные кавычки ``` , XML-теги или заголовки разделов, чтобы четко обозначить разные части ввода, помогая модели правильно интерпретировать различные секции

Ограничьте дополнительный контекст при генерации с RAG:
при предоставлении дополнительного контекста или документов включайте только самую релевантную информацию, чтобы предотвратить усложнение ответа моделью

***

Это интересно, то есть промпт-инженеринг в такой модели уже совсем не нужен, кроме систематизации данных – жду не дождусь доступа

Видимо, в gpt5 уже и промпты не нужны будут, да?

Пост 12.09.2024 23:07

Сентябрь 12

Сиолошная

Удобный пост-выжимка с новостями о новой передовой модели OpenAI, o1:

— прирост качества происходит за счёт рассуждения LLM'кой перед ответом. Текст рассуждений не будет доступен, лишь краткая выжимка с верхнеуровневым описанием

— модели и раньше умели рассуждать, но делали это менее эффективно. Основной упор OpenAI сделали именно на то, чтобы при итеративном само-исправлении (рефлексии) и рассуждениях модель куда чаще приходила к правильному ответу

— o1 это не замена gpt-4o во всех задачах. Она СИЛЬНО лучше в математике/физике/программировании, лучше и чётче следует инструкциям, но потенциально хуже говорит на разных языках и обладает не большим количеством знаний о мире. Следует воспринимать модель как reasoner («мыслитель» по-русски, видимо). Мини-версия, со слов OpenAI, в этом плане сравнима с gpt-4o-mini, тут без откровений

— модель доступна сегодня всем платным подписчикам ChatGPT Plus с жестким лимитом: 30 сообщений В НЕДЕЛЮ большой модели и 50 - маленькой. Так что собирайте все свои хотелки и продумывайте требования к решению наперёд :)

— если вы часто пользовались API и потратили больше $1000 в прошлом, то модель будет доступна по API с ограничением 20 запросов/минута

— однако цены кусаются: младшая версия o1-mini стоит чуть-чуть дороже gpt-4o августовской...но при этом вы платите за все рассуждения (которые, напомню, не увидите!) - а их будет МНОГО. Поэтому реальная наценка будет в 3-10 раз, в зависимости от времени «раздумий» модели

— модель справляется с олимпиадными задачами по математике и программированию на уровне золотых медалистов международного тура; по физике в сложных тестовых заданиях, устойчивых к решению с использованием поисковика Google, она сравнима с PhD-level студентом (~75-80% правильных ответов)

— возможности использовать изображения, поиск в интернете, запускать код пока отключены; но появятся в ближайшем будущем

— сейчас контекст моделей ограничен 128k токенами, как и у старых версий. Однако следует ожидать увеличения в будущем — OpenAI заявляют, что сейчас модель в пике «думает» чуть больше пары минуты, а они хотят стремиться к часам и дням.

— как это всегда бывает с первым релизом, могут быть очень простые баги, когда модель прям на очевиднейшие вещи не отвечает/ведется на джейлбрейки. Это — нормально, уже через 2-3 месяца, когда модель перестанет быть preview, их станет сильно меньше

— у самих OpenAI есть уже не-preview модель, однако они её тестируют, и пока не готовы выпускать. Она лучше того, что досталось нам — смотрите на прикреплённой картинке

— новую модель НЕ НУЖНО промптить, не нужно просить отвечать как-то с размышлением, шаг за шагом или по-хитрому; всё это сделается самостоятельно под капотом за вас. Советы по промптингу от OpenAI — тут

— статьи, которые можно почитать, чтобы примерно прикинуть, как обучали модель: один , два , три . Они могут иметь ничего общего с реальностью, но копают в том же направлении

Ну и да, всем — добро пожаловать в Strawberry Era!

Пост 12.09.2024 22:19

Сентябрь 12

Сиолошная

П р и м е р р е ш е н и я д о в о л ь н о н е т р и в и а л ь н о й з а д а ч к и , с к о т о р о й т е к у щ и е м о д е л и н е с п р а в л я ю т с я

Пост 12.09.2024 22:03

Сентябрь 12

Сиолошная

Те, кто уже получил доступ и побежал тестировать, держите в уме ограничения:

— в неделю можно отправить 30 сообщений в старшую версию o1-preview
— и 50 сообщений в маленькую o1-mini

В API ограничений нет, кроме как на 20 запросов в минуту. Но платить придётся...много 🙂

Источник

Пост 12.09.2024 21:38

Сентябрь 12

Сиолошная

М н е к а к о б ы ч н о д о с т у п д а ю т п о с л е д н е м у , п о э т о м у в о т и з к о м м е н т а р и е в в и д е о т о г о , к а к р а с с у ж д а е т м о д е л ь . В Ч а т Г П Т м о ж н о б у д е т п о с м о т р е т ь ц е п о ч к у р а с с у ж д е н и й .

О д н а к о к а к я п о н я л э т у ф и ч у у б е р у т ( и в А П И н е б у д е т ) — O p e n A I н а с а й т е н а п и с а л и , ч т о р а с с у ж д е н и я н е б у д у т п о к а з ы в а т ь с я .

Пост 12.09.2024 21:32

Сентябрь 12

Сиолошная

Пост 12.09.2024 21:29