От бронирования поездок до осуществления научных открытий. Скоро может появиться новая модель искусственного интеллекта
Она будет в 100 раз мощнее GPT-4. Но на пути — рекордные расходы и неожиданные трудности.
23.12.2024 / 16:57
Иллюстративное фото: Igor Omilaev / Unsplash
«Таинственная и сверхмощная» — так YouTube-канал «AI Revolution» охарактеризовал новую модель искусственного интеллекта OpenAI.
Речь идет о модели «Орион» (Orion) или GPT-5, которая должна быть в 100 раз мощнее GPT-4. Это сделало бы её одной из самых амбициозных систем ИИ.
«Орион» является частью проекта OpenAI по созданию так называемого искусственного общего интеллекта (AGI) — разновидности ИИ, который сможет рассуждать и учиться так же, как человек.
Дипа Ситхараман (Deepa Seetharaman) — журналистка, которая освещает тему ИИ в издании The Wall Street Journal, рассказывает об интересных нюансах работы над «Орионом».
На карту поставлены огромные суммы
Процесс обучения моделей ИИ — предоставление им массивов текстов для изучения языковых шаблонов — требует необычайной вычислительной мощности.
Говорят, что GPT-4 стоил больше 100 миллионов долларов только на обучение. Один шестимесячный «обучающий запуск» (интенсивный период, в течение которого модель получает все свои данные) может стоить до 500 миллионов долларов только в виде вычислительных расходов.
Некоторые эксперты считают, что затраты на модели следующего поколения легко могут превысить 1 миллиард долларов.
Эти колоссальные суммы обусловлены дорогим оборудованием, в частности графическими процессорами (GPU) от Nvidia, известными своими возможностями параллельной обработки.
Один центр обработки данных, используемый OpenAI для обучения модели, может одновременно задействовать десятки тысяч таких графических процессоров.
Их круглосуточная работа в течение нескольких месяцев не только потребляет огромное количество электроэнергии, но и требует передовых систем охлаждения, специальных инженеров и непрерывного обслуживания, чтобы гарантировать, что обучение не прервётся на середине.
OpenAI давно планировал преемника GPT-4, который в публичных обсуждениях называется GPT-5 и имеет кодовое название «Орион» (Orion). Как сообщает Дипа Ситхараман, «Орион» разрабатывался более 18 месяцев и, по задумке, должен стать значительным шагом вперед в возможностях ИИ.
«Если GPT-4 — это «смышленый старшеклассник», то «Орион» — ученый с докторской степенью», — отмечает Ситхараман.
Ожидается, что «Орион» будет выдавать более надежные данные, реже ошибаться и отличаться усовершенствованными навыками понимания. Он сможет решать различные сложные задачи — от бронирования поездок до совершения новаторских открытий.
Не без проблем
Microsoft, крупнейший партнер OpenAI, первоначально ожидал, что GPT-5 появится примерно в середине 2024 года. Однако разработка оказалась значительно более сложной.
Было проведено два основных тренировочных запуска — оба длительные, ресурсоёмкие, каждый из которых стоил сотни миллионов долларов.
Каждый раз исследователи сталкивались с непредвиденными трудностями. Хотя «Орион» демонстрировал успехи в некоторых областях, он, как сообщается, не достиг прорывного прогресса, на который надеялись руководители и инвесторы.
Более того, изменения в конструкции означали, что процессы обучения были очень медленными и дорогими, что породило вопрос о том, оправдана ли стоимость масштабом прогресса.
Главная проблема «Ориона» — это выход за пределы стратегии «чем больше, тем лучше». Предыдущие модели OpenAI использовали миллиарды (а в конечном итоге триллионы) токенов, взятых из интернета — новостные статьи, сообщения в социальных сетях, научные работы и многое другое.
Но, как отметил Илья Суцкевер (сооснователь OpenAI, который недавно покинул компанию), интернет ограничен.
«У нас только один интернет», — сказал он, имея в виду, что эра легкого доступа к большему количеству текстовых данных заканчивается.
Ситуацию ещё больше усложняет нехватка вычислительных ресурсов. Расширенные обучающие запуски «Ориона» должны конкурировать с другими командами, создающими новые версии GPT-4 или инструментов ИИ для изображений, видео (например, Sora, генератор AI-видео OpenAI) или специализированных решений для корпоративных клиентов.
Напряженная внутренняя борьба за GPU и время центров обработки данных создает дополнительное давление на график «Ориона».
Переосмысление обучения ИИ: ставка на «мышление»
Крупные языковые модели, такие как серия GPT, опираются на процесс обучения, схожий с чтением целых библиотек текстов и обучением предсказывать следующее слово в последовательности.
Они поглощают триллионы «токенов» или фрагментов слов, взятых из интернета, книг, научных работ и других соответствующих текстов.
В принципе, чем больше данных модель «поглощает», тем более надежным может стать ее понимание языка. Весь этот процесс обучения происходит на массивных кластерах графических процессоров.
Каждый скачок требовал значительно большего объема данных, более совершенных алгоритмов и экспонентно большей вычислительной мощности.
В случае «Ориона» OpenAI попытался объединить новые архитектурные разработки с еще более широким набором данных. Однако, когда началась тренировка, результаты были мало впечатляющими.
Один пробный запуск под названием «Арракис» шел настолько медленно, что можно было предположить, что полное обучение займет очень много времени и будет астрономически дорого стоить.
Поскольку простого увеличения объема данных может быть недостаточно, исследователи OpenAI переключают внимание на мышление. Вместо того чтобы учить модель предсказывать следующее слово, идея заключается в том, чтобы позволить модели долго «обдумывать» различные решения, прежде чем прийти к ответу.
Одна из специализированных моделей OpenAI под кодовым названием o1 уже демонстрирует потенциал мышления путем генерации нескольких ответов на запрос и их внутренней оценки перед тем, как дать окончательный ответ.
Такой подход дорогой, так как он, по сути, запускает несколько версий одного запроса, но может дать более тщательно продуманные ответы.
Мышление также предполагает разрешение моделям поэтапно объяснять свое рассуждение, что может помочь им выявить недостатки или ошибки. Например, модель может решить сложную логическую головоломку, перечисляя каждый шаг на пути к решению.
Этот более рефлексивный подход направлен на решение наиболее серьезных проблем предыдущих систем искусственного интеллекта: их склонности к «галлюцинациям» при сохранении уверенного тона ответов. Если научить модель замедляться и размышлять, количество галлюцинаций можно уменьшить.
Несмотря на неудачи, «Орион» — это амбициозный проект по созданию модели искусственного интеллекта следующего поколения, которая значительно превзойдет GPT-4 по интеллекту и надежности.
Вся индустрия внимательно следит за этим, осознавая, что если «Орион» все же успешно заработает, это действительно может произвести революцию во всем — от решения повседневных задач до совершения новаторских научных исследований.