Ствараецца база для распазнавання беларускага маўлення — далучыцца можа кожны
Арганізатары праекта «Мова прафесіі» заклікаюць усіх беларусаў далучыцца да «марафона» агучвання невялікіх сказаў на роднай мове.
23.06.2021 / 12:35
Гэта ў будучыні пойдзе на карысць развіцця тэхналогіяў распазнавання беларускага маўлення, адкрые мноства выдатных сучасных магчымасцяў і дакажа, што ў нашай мовы ёсць будучыня!
Працэс надзвычай просты:
-
Трэба зайсці на старонку і націснуць на мікрафон!
-
Пачаць начытваць сказы. Можна з тэлефона, можна без рэгістрацыі.
-
Таксама можна правяраць ужо начытаныя іншымі людзьмі сказы, што таксама важна.
«Тэхналагічныя гіганты не інвестуюць у распазнаванне беларускай мовы і мы застаемся без істотнай тэхналогіі, без якой нашай мове будзе яшчэ складаней канкураваць. Калі мы не назбіраем дадзеныя самі, за нас гэта ніхто не зробіць»,
— кажа Аляксей Гур’янаў, ІТ дырэктар кампаніі ТКП-Софт, якая вырашыла дапамагчы напрацаванымі тэхналогіямі ў распазнаванні беларускага маўлення.
Дзеля актывізацыі беларускай мовы ў міжнародным праекце Mozilla Common Voice неабходным мінімумам з’яўляліся 5000 сказаў. Камандзе say.by атрымалася зацвердзіць 85’000.
Кіраваў гэтым працэсам Аляксандр Трафімаў: «Мы пайшлі праз паўаўтаматычны шлях. З беларускай вікіпедыі намі было выгружана блізу 85’000 сказаў. Далей адбылася праверка выпадковай падвыбаркі ў 4’000 сказаў мовазнаўцамі-валанцёрамі, за што ім асабісты і асаблівы дзякуй! Гэта дазволіла мэйнтэйнерам Mozilla Common Voice актывізаваць беларускую мову і распачаць працэс агучвання!»
Акрамя магчымасці рэалізаваць праект say.by «Мова прафесіі» прысвечаны трэніроўцы жывой размовы і пацверджанню валодання беларускай мовай, набор запісаў галасоў стане даступным навукоўцам, праграмістам, ІТ-кампаніям і ўсім ахвотным рабіць праекты, звязаныя з распазнаваннем і сінтэзаваннем беларускага маўлення, дадаць падтрымку ў існыя праграмы і мабільныя дадаткі.
«Аўтаматычныя сістэмы распазнавання маўлення пераўтвараюць маўленне ў тэкст. Напрыклад, журналіст запісаў на дыктафон інтэрв’ю, і праз праграму распазнавання маўлення з дапамогай некалькіх клікаў ён атрымае з гуказапісу тэкст.
З дапамогай распазнавання маўлення з’явіцца магчымасць кіраваць тэхнікай голасам па-беларуску — святлом, тэмпературай, мікрахвалёўкай, мабільным тэлефонам замест націскання кнопак.
Ніводная з наяўных інфармацыйных сістэмаў не распазнае беларускую мову! У спісе моваў распазнавання маўлення Google таксама няма беларускай. У 2018-2020 гадах у нашай лабараторыі быў створаны маўленчы корпус на 70 гадзін для трэніроўкі сістэмы распазнавання маўлення па-беларуску, на яго аснове быў распрацаваны першы прататып сістэмы распазнавання беларускага маўлення.
А зараз ёсць магчымасць ажыццявіць наступны крок — зрабіць якасны вялікі беларускі маўленчы корпус, які дасць магчымасць кожнаму ахвотнаму зрабіць сваю сістэму распазнавання беларускага маўлення і выкарыстаць яе для навуковых ці камерцыйных мэтаў!» — сцвярджае навуковец АІПІ НАН Беларусі, кандыдат тэхнічных навук Юрась Гецэвіч.
Да марафону агучвання тэкстаў далучыліся і супрацоўнікі кампаній АЗС А-100, Піваварнай кампаніі Аліварыя, TCP-Soft, ActiveCloud, Jet BI, Інстытут мовазнаўства імя Якуба Коласа, Шпаркі Лось, Хуткі Вожык. Арганізатары запрашаюць да ўдзелу ўсе кампаніі і супольнасці, бо гэта не толькі цікавая, але і важная актыўнасць для ўсіх беларусаў.
Падчас агучвання ваш голас мусіць гучаць натуральна, нібы адбываецца звычайная размова. Памятайце і пра свой беларускі акцэнт — цвёрдае ч, фрыкатыўнае г, «дзеканне» і «цеканне», «мяккасць» пры спалучэнні зычных, напрыклад «свет» чытаецца як «сьвет», «насенне» — як «насеньне».
Пачаць працэс, паглядзець дадатковыя парады, а таксама апошнюю статыстыку па колькасці агучаных сказаў можна на сайце Mova.pro.