Як навукоўцы спрабуюць навучыць камп’ютар мове жэстаў
Галасавыя памочнікі ўсё больш актыўна становяцца часткай нашага штодзённага жыцця, але ёсць група насельніцтва, якая пакуль застаецца па-за межамі гэтых тэндэнцый. На сённяшні дзень глухія людзі не маюць магчымасці скарыстацца дадаткамі накшталт Siri ад Apple ці Алісы ад кампаніі Яндэкс.
09.03.2021 / 20:49
Фота Depositphotos.com
Гэтыя людзі камунікуюць на мове жэстаў — «на мігі», як гавораць па-беларуску, і шмат хто спрабаваў навучыць гэтай мове камп’ютары. Апошні час прапаноўваліся самыя розныя варыянты рашэнняў — ад сэнсарных пальчатак, што рэгіструюць рухі пальцаў карыстальніка, да адмысловых праграм для той жа мэты. Але ўсе яны былі беспаспяховыя, піша The Economist.
Аднак навукоўцы працягваюць шукаць варыянты таго, як тэхналогіі маглі б больш спрыяць інтарэсам глухіх людзей. Эксперты рыхтуюць базы звестак з тэкстамі на мігі. А праграмісты, у сваю чаргу, спрабуюць ператварыць гэтыя базы ў карысныя прадукты для глухіх карыстальнікаў.
Як і звычайныя мовы, мовы жэстаў — а іх сістэм у свеце налічваецца каля сотні — маюць свае граматычныя асаблівасці, адметныя ідыёмы і дыялекты. У той жа час дапаможнікі па мігі далёка не заўсёды адлюстроўваюць тонкасці штодзённага ўжывання тых ці іншых жэстаў. Асобныя мовы могуць стаць скарачэннем для нейкіх складаных ідэй. Таму правільна распазнаць мігі нашмат складаней, чым зразумець вымаўленыя склады або напісаныя літары.
У 2019 годзе кампанія Microsoft правяла даследаванне, згодна з якім тыповая агульнадаступная база тэкстаў на звычайных мовах складаецца прыкладна з мільярда слоў ад тысячы розных прамоўцаў. У выпадку з мовамі жэстаў базы тэкстаў звычайна больш сціплыя — менш за 100 тысяч знакаў усяго ад дзесяці прамоўцаў.
Добрая база тэкстаў павінна быць разнастайнай, інакш яна не зможа эфектыўна працаваць. Да таго ж, камп’ютары вучацца надта павольна, то-бок ім трэба тлумачыць кожны кавалак уведзенай інфармацыі — кожны рух і выраз твару. Гэта таксама патрабуе часу.
Збор інфармацыі, неабходнай для працы з мовамі жэстаў, патрабуе запіс мімікі людзей, таму шмат каго хвалюе праблема прыватнасці. Але пры дастатковай колькасці звестак будзе магчыма дасягнуць добрых вынікаў. Даследчыкі венгерскай кампаніі SignAll ужо маюць каля 300 тысяч відэа ад ста прамоўцаў з выкарыстаннем больш за 3 тысяч знакаў з амерыканскай мовы жэстаў. Распрацаваная кампаніяй праграма можа разумець гэтую мову пры павольнай хуткасці і перакладаць мігі ў пісьмовую англійскую мову. Пакуль што праграма працуе толькі пры выкарыстанні адмысловых пальчатак.
Кіраўнік кампаніі Жолт Робатка тлумачыць, што цяпер праца навукоўцаў звязаная з перакладам тэкстаў на мове жэстаў у звычайныя пісьмовыя ці вусныя тэксты. Пераклад у адваротным накірунку больш складаны, бо трэба вырашыць пытанне таго, як візуалізаваць мігі.
Над гэтым цяпер працуюць некалькі міжнародных праектаў, але застаецца пытанне правільнага падыходу да праблемы. Папярэднія праекты такога кшталту былі прысвечаныя паляпшэнню камунікацыі з глухімі для іншых людзей. Эксперты лічаць, што калі ў цэнтры ўвагі падчас распрацоўкі новых прадуктаў паставіць менавіта інтарэсы глухіх людзей, то гэта прывядзе да лепшых вынікаў.