Штучны інтэлект дапамог прачытаць таблічкі з клінапісам, якім пяць тысяч гадоў

Мадэль, створаная археолагамі і спецыялістамі па машынным навучанні, мае шанец зрабіць рэвалюцыю ў даследаваннях найстаражытнейшай пісьменнасці, створанай чалавецтвам.

04.07.2023 / 22:15

Гліняная таблічка з Шурупака з тэкстам аб продажы поля і дома, каля 2600 г. да н. э. Фота: Wikimedia Commons

Да сёння многія старажытныя пісьмовыя сістэмы застаюцца нерасшыфраванымі. Сярод іх пісьмо цывілізацыі даліны Інда, лінейнае пісьмо А, якім карысталіся старажытныя жыхары Крыта, а таксама пісьмо, якое нанесена на Фесцкі дыск — помнік, які, на думку вучоных, адносіцца да мінойскай культуры. Расшыфроўка гэтага пісьма дазволіла б праліць святло на гісторыю народаў, якія ім карысталіся.

Аднак з развіццём штучнага інтэлекту навукоўцы атрымліваюць абсалютна новыя магчымасці. Даследчыкі з двух ізраільскіх універсітэтаў стварылі мадэль нейроннага машыннага перакладу, якая можа перакладаць пісьмовую акадскую мову, якую цяжка расшыфраваць.

Акадская мова належыць да групы семіцкіх моў, яна выкарыстоўвалася ў Месапатаміі з сярэдзіны III тысячагоддзя да нашай эры да пачатку I тысячагоддзя нашай эры.

Выкарыстанне мадэлі дазваляе хутка і адносна эфектыўна чытаць клінапіс з таблічак, сабраных археолагамі за апошнія дзвесце гадоў. Самым старажытным з іх — каля пяці тысяч гадоў. У музеях, універсітэтах і навуковых установах усяго свету на сёння захоўваецца каля 500 тысяч гліняных таблічак з клінапісам.

Сваімі дасягненнямі вучоныя падзяліліся ў навуковым артыкуле, апублікаваным у часопісе PNAS Nexus.

У сваім артыкуле даследчыкі адзначаюць, што пераклад — гэта складаны працэс, бо звычайна патрабуецца не толькі экспертнае валоданне дзвюма рознымі мовамі, але і веданне рознага культурнага асяроддзя.

Лічбавыя інструменты, якія могуць дапамагчы ў перакладзе, становяцца ўсё больш распаўсюджанымі. Гэта звязана з прагрэсам у такіх галінах, як аптычнае распазнаванне сімвалаў і машынны пераклад.

Аднак старажытныя мовы па-ранейшаму ўяўляюць вялікую праблему ў гэтым плане. Іх прачытанне і разуменне патрабуе ведаў даўно памерлай моўнай супольнасці, да таго ж самі тэксты таксама могуць быць вельмі фрагментарнымі.

Мадэль нейроннага машыннага перакладу, якую распрацавалі вучоныя, заснаваная на апрацоўцы пісьмовай мовы і глыбокім навучанні, якое заснавана на т. зв. згортачнай нейроннай сетцы (convolutional neural networks), што была спецыяльна распрацаваная для эфектыўнага распазнавання вобразаў.

Яе мэта — кааперацыя чалавека і машыны, стварэнне так званага канвеера, ці паслядоўнасці крокаў, якія пераўтвараюць акадскую мову ў англійскую. Ён пачынаецца з выявы клінапіснай таблічкі і заканчваецца яе транслітарацыяй і перакладам.

Вучоныя адзначаюць, што клінапісныя знакі полівалентныя, гэта значыць, што кожны знак мае больш, чым адно магчымае прачытанне, і гэта прачытанне вызначаецца папярэднім і наступным знакамі. Яны навучылі мадэль машыннага навучання аўтаматычна вызначаць адпаведнае прачытанне і сегментацыю.

Навукоўцы дасягнулі дакладнасці ад 89,5% да амаль 97% у залежнасці ад алгарытму і віду тэксту. Як тлумачаць даследчыкі, найлепшыя вынікі былі атрыманыя ў выпадку тэкстаў з загадзя вызначанай структурай, напрыклад, царскіх указаў. Горш было з паэтычнымі тэкстамі. У гэтым выпадку штучны інтэлект шмат выдумваў.

Акрамя таго, мадэль дасягае найлепшых вынікаў у кароткіх і сярэдніх па колькасці слоў сказах (каля 118 знакаў або менш). Па меры павелічэння колькасці алічбаваных тэкстаў вынікі могуць быць палепшаныя шляхам далейшага навучання ў рамках сістэмы «чалавека ў цыкле», што дазваляе карэктаваць працу штучнага інтэлекту.

Цяпер мадэль даступная анлайн, а яе зыходны код можна знайсці на GitHub у Akkademi. Для таго, каб зрабіць свой канвеер больш даступным, вучоныя рэалізавалі яго функцыянальнасць у выглядзе анлайн-дадатку пад назваю Babylonian Engine.

Вучоныя плануюць, што праз некалькі гадоў (хоць яны не могуць сказаць дакладна, праз колькі) у выпадку, калі археолагі і філолагі будуць на раскопках і знойдуць новы архіў клінапісных тэкстаў, яны змогуць сфатаграфаваць кожную таблічку і атрымаць прыблізную транслітарацыю і пераклад тэкстаў. Праграма зможа па почырку прапанаваць магчымую дату стварэння тэксту, назаве нават імя меркаванага пісца або групы пісцоў, вызначыць жанр і шмат чаго іншага.

Навукоўцы плануюць стварыць анлайн-інструменты для рэдагавання клінапісных тэкстаў, каб даследчыкі маглі выпраўляць і паляпшаць першапачатковыя вынікі. У планах таксама стварэнне віртуальных тураў па старажытных сталіцах і стэпах Месапатаміі і Анатоліі, што можа пераўтварыць працэс навучання ў гульню для студэнтаў.

Гэта можа пераўтварыць асірыялогію з вузкаспецыялізаванай тэмы ў адну з тых, што найбольш вывучаюцца, значна паскорыць працэс даследавання і ў разы павялічыць нашы веды пра адно з самых старажытных і развітых грамадстваў у свеце.

Чытайце яшчэ:

Навукоўцы нарэшце расшыфравалі пачатак таямнічага манускрыпта Войніча XV стагоддзя

Як навукоўцы спрабуюць навучыць камп’ютар мове жэстаў

Навукоўцы расшыфравалі надпіс на старажытнай мове ўзростам 3200 гадоў

Антось Жупран