Ад браніравання паездак да здзяйснення навуковых адкрыццяў. Неўзабаве можа з’явіцца новая мадэль штучнага інтэлекту
Яна будзе ў 100 разоў больш магутнай за GPT-4. Але на шляху — рэкордныя выдаткі і нечаканыя цяжкасці.
23.12.2024 / 16:38
Ілюстрацыйны здымак. Фота: Igor Omilaev / Unsplash
«Таямнічая і звышмагутная» — такім чынам YouTube канал «AI Revolution» акрэсліў новую мадэль штучнага інтэлекту OpenAI.
Гаворка ідзе пра мадэль «Арыён» (Orion) або GPT-5, якая павінна быць у 100 разоў больш магутнай за GPT-4. Гэта зрабіла б яе адной з самых амбіцыйных сістэм ШІ.
«Арыён» з’яўляецца часткай праекта OpenAI па стварэнні т. зв. штучнага агульнага інтэлекту (AGI) — разнавіднасці ШІ, які зможа разважаць і вучыцца гэтак жа, як чалавек.
Дзіпа Сітхараман (Deepa Seetharaman) — журналістка, якая асвятляе тэматыку ШІ ў выданні The Wall Street Journal — распавядае пра цікавыя нюансы працы над «Арыёнам».
На карту пастаўлены велізарныя сумы
Працэс навучання мадэляў ШІ — падача ім масіўных абшараў тэксту, каб дапамагчы ім вывучыць моўныя шаблоны, — патрабуе незвычайнай вылічальнай магутнасці.
Кажуць, што GPT-4 каштаваў больш за 100 мільёнаў долараў толькі на навучанне. Адзін шасцімесячны «навучальны запуск» (інтэнсіўны перыяд, на працягу якога мадэль атрымлівае ўсе свае даныя) можа каштаваць да 500 мільёнаў долараў толькі ў выглядзе вылічальных выдаткаў.
Некаторыя эксперты мяркуюць, што выдаткі на мадэлі наступнага пакалення лёгка могуць перавысіць 1 мільярд долараў.
Гэтыя каласальныя сумы абумоўлены дарагім абсталяваннем, у прыватнасці графічнымі працэсарамі (GPU) ад Nvidia, вядомымі сваімі магчымасцямі паралельнай апрацоўкі.
Адзін цэнтр апрацоўкі даных, які выкарыстоўваецца OpenAI для навучання мадэлі, можа адначасова ангажаваць дзясяткі тысяч гэтых графічных працэсараў.
Іх кругласутачная праца на працягу некалькіх месяцаў не толькі спальвае велізарную колькасць электраэнергіі, але і патрабуе перадавых сістэм астуджэння, спецыяльных інжынераў і бесперапыннага абслугоўвання, каб гарантаваць, што навучанне не сарвецца пасярэдзіне.
OpenAI даўно планаваў пераемніка GPT-4, які ў публічнай дыскусіі называецца GPT-5 і мае кодавую назву «Арыён» (Orion). Як паведамляе Дзіпа Сітхараман, «Арыён» распрацоўваўся больш за 18 месяцаў і, паводле задумы, павінен стаць сур’ёзным крокам наперад у магчымасцях ШІ.
«У той час як GPT-4 — гэта «кемны старшакласнік», «Арыён» — навуковец са ступенню PhD», — заўважае Сітхараман.
Чакаецца, што «Арыён» будзе выдаваць больш надзейныя даныя, менш памыляцца і характарызавацца ўдасканаленымі навыкамі разумення. Ён зможа вырашаць розныя складаныя задачы — ад браніравання паездак да здзяйснення наватарскіх адкрыццяў.
Не без праблемаў
Microsoft, найбуйнейшы партнёр OpenAI, першапачаткова чакала, што GPT-5 з’явіцца прыкладна ў сярэдзіне 2024 года. Аднак распрацоўка аказалася значна больш складанай.
Былі зроблены два асноўныя трэніровачныя запускі — абодва працяглыя, рэсурсаёмістыя, кожны з якіх каштаваў сотні мільёнаў долараў.
Кожны раз даследчыкі сутыкаліся з непрадбачанымі цяжкасцямі. У той час як «Арыён» дэманстраваў поспехі ў некаторых галінах, ён, як паведамляецца, не дасягнуў наватарскага прагрэсу, на які спадзяваліся кіраўнікі і інвестары.
Больш за тое, змены ў канструкцыі азначалі, што працэсы навучання былі вельмі павольнымі і дарагімі, спараджаючы пытанне аб тым, ці апраўданы кошт маштабам прагрэсу.
Галоўная праблема «Арыёна» — гэта выйсце па-за стратэгію «чым больш, тым лепш». Папярэднія мадэлі OpenAI выкарыстоўвалі мільярды (і ў канчатковым выніку трыльёны) токенаў, узятых з інтэрнэту — навінавыя артыкулы, паведамленні ў сацыяльных сетках, навуковыя артыкулы і многае іншае.
Але, як заўважыў Ілля Суцкевер (сузаснавальнік OpenAI, які нядаўна пакінуў кампанію), інтэрнэт абмежаваны.
«У нас толькі адзін інтэрнэт», — сказаў ён, маючы на ўвазе, што эра лёгкага доступу да большай колькасці тэкставых даных завяршаецца.
Яшчэ больш ускладняе сітуацыю недахоп вылічальных рэсурсаў. Пашыраныя навучальныя запускі «Арыёна» павінны супернічаць з іншымі камандамі, якія ствараюць новыя версіі GPT-4 або інструментаў ШІ для выяваў, відэа (напрыклад, Sora, генератар AI-відэа OpenAI) або спецыялізаваных рашэнняў для карпаратыўных кліентаў.
Напружаная ўнутраная барацьба за GPU і час цэнтра апрацоўкі даных стварае дадатковы ціск на графік «Арыёна».
Пераасэнсаванне навучання ШІ: стаўка на «разумаванне»
Вялікія моўныя мадэлі, такія як серыя GPT, абапіраюцца на працэс навучання, падобны да чытання цэлых бібліятэк тэксту і навучання прадказанню наступнага слова ў паслядоўнасці.
Яны паглынаюць трыльёны «токенаў» або фрагментаў слоў, узятых з інтэрнэту, кніг, навуковых прац і іншага адпаведнага тэксту.
У прынцыпе, чым больш даных мадэль «паглынае», тым больш надзейным можа стаць яе разуменне мовы. Увесь гэты працэс навучання адбываецца на масіўных кластарах графічных працэсараў.
Кожны скачок патрабаваў значна больш даных, больш дасканалых алгарытмаў і экспанентна большай вылічальнай магутнасці.
У выпадку «Арыёна» OpenAI паспрабаваў аб’яднаць новыя архітэктурныя праекты з яшчэ больш шырокім наборам даных. Аднак, калі пачалася трэніроўка, вынікі былі мала ўражваючымі.
Адзін пробны запуск пад назваю «Арракіс» ішоў так павольна, што можна было меркаваць, што поўная трэніроўка зойме вельмі шмат часу і будзе астранамічна дорага каштаваць.
Паколькі простага павелічэння масіву даных можа быць недастаткова, даследчыкі OpenAI пераключаюць увагу на разумаванне. Замест таго, каб вучыць мадэль прадказваць наступнае слова, ідэя заключаецца ў тым, каб дазволіць мадэлі доўга «прадумваць» розныя рашэнні, перш чым прыйсці да адказу.
Адна са спецыялізаваных мадэляў OpenAI пад кодавай назвай o1 ужо дэманструе патэнцыял разумення шляхам генерацыі некалькіх адказаў на запыт і іх унутранай ацэнкі перад тым, як даць канчатковы адказ.
Такі падыход дарагі, бо ён, па сутнасці, запускае некалькі версій аднаго запыту, але можа даць больш старанна прадуманыя адказы.
Разумаванне таксама прадугледжвае дазвол мадэлям паэтапна тлумачыць сваё мысленне, што можа дапамагчы ім вызначыць недахопы або пралікі. Напрыклад, мадэль можа вырашыць складаную лагічную галаваломку, пералічваючы кожны крок на шляху да рашэння.
Гэты больш рэфлексіўны падыход накіраваны на вырашэнне найбольш сур’ёзных праблем дагэтулешніх сістэм штучнага інтэлекту: іх схільнасць да «галюцынацый» пры захаванні ўпэўненай манеры выдавання адказаў. Калі навучыць мадэль запавольвацца і разумець, колькасць галюцынацый можна паменшыць.
Нягледзячы на няўдачы, «Арыён» — гэта амбіцыйны праект па стварэнні мадэлі штучнага інтэлекту наступнага пакалення, якая значна пераўзыходзіць GPT-4 па інтэлекту і надзейнасці.
Уся індустрыя ўважліва сочыць за гэтым, усведамляючы, што калі «Арыён» усё ж паспяхова запрацуе, гэта сапраўды можа здзейсніць рэвалюцыю ва ўсім — ад вырашэння штодзённых задач да здзяйснення наватарскіх навуковых даследаванняў.