На сайце праекта «Беларускі N-корпус», дзе над стварэннем Нацыянальнага корпуса беларускай мовы працуе сектар камп'ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі, з’явіўся першы сінтэзатар беларускага маўлення.
Новая магчымасць пашырыць гарызонты распаўсюджвання беларускай мовы.
Спецыялісты адзначаюць, што даўно шукалі магчымасць стварыць сінтэзатар і цяпер свае першыя вынікі ў гэтым кірунку зрабілі даступнымі для ўсіх у раздзеле «Фанетычны канвертар і сінтэз маўлення» на сайце «Беларускага N-корпуса».
Сінтэзатар зроблены па слядах беларускамоўнай мадэлі для агучвання тэксту «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя самыя запісы для навучання, якія былі сабраныя праектам donar.by. На сайце праекта donar.by можна як запісаць («ахвяраваць») свой голас, так і праверыць ужо зробленыя запісы. Ухваленыя запісы трапляюць у набор даных Common Voice, які распаўсюджваецца пад свабоднай ліцэнзіяй і закліканы дапамагаць распрацоўшчыкам ствараць прылады для распазнавання маўлення. Менавіта гэтай магчымасцю і скарысталіся навукоўцы з Акадэміі навук.
Цяпер на сайце «Беларускага N-корпуса» можна зрабіць фанетычную транскрыпцыю любога беларускага тэксту паводле правілаў Міжнароднага фанетычнага алфавіта (IPA), або так званай «школьнай транскрыпцыі», якая шырока распаўсюджана ў айчынным мовазнаўстве. Для большасці слоў канвертар здольны самастойна падабраць і паставіць націскі для карэктнай сінтэзацыі маўлення, для больш рэдкіх словаў, напрыклад, уласных назваў, ёсць магчымасць паставіць націск самастойна. У цяперашняй тэставай версіі максімальны памер тэксту для агучвання абмежаваны 2000 знакаў.
Пакуль што сінтэзаванае маўленне гучыць досыць штучна, механічна, але пры гэтым цалкам карэктна. Сінтэзатары іншых буйных моў, якія вядомыя ўжо не першы год, ад пачатку ўсе грашылі на некарэктнае прачытанне слоў і памылковыя націскі — гэты досвед, відаць, быў улічаны. Беларускія спецыялісты абяцаюць працягваць працу далей і заклікаюць далучацца ўсіх, хто гатовы да супрацоўніцтва.
«Цяпер мы маем досвед у навучанні сінтэзу маўлення і гатовыя працягваць працу далей. Для гэтага нам трэба давесці да ладу фанетычны канвертар, запісаць у добрай якасці дыктараў з добрымі галасамі і правільнай фанетыкай, падрыхтаваць гэтыя запісы для навучання сінтэзатару маўлення», — адзначаюць распрацоўшчыкі.
У сацсетках гэтую навіну ўспрынялі надзвычай станоўча, беларусы адразу прыкінулі, што развіццё гэтай тэхналогіі дазволіць, напрыклад, беларусізаваць галасавых памочнікаў, аўтаматызаваць стварэнне субцітраў на YouTube і распазнаваць беларускамоўныя галасавыя паведамленні ў месенджарах, чаго цяпер пазбаўлены.
Каментары