Мова22

Урэзаны і адцэнзураваны. Корпус беларускай мовы аднавіў сваю працу 

Праз паўгода бяздзеяння часткова аднавіў працу Беларускі N-корпус. Афіцыйнай прычынай спынення працы называліся тэхнічныя праблемы, але выглядае, што праект стаў ахвярай палітычнай цэнзуры.

Фота: «Наша Ніва»

Беларускі N-корпус нечакана спыніў сваю працу ў ліпені 2023 года. На адпаведнай старонцы было размешчана паведамленне пра тое, што ў распрацоўшчыкаў «узніклі праблемы з корпусам»:

«На жаль, атрымалася так, што мы не можам яго падтрымліваць далей з розных прычын. Рухавік корпуса застаецца пад вольнай ліцэнзіяй. Астатнія праекты будуць працягвацца як і раней».

Больш дакладных тлумачэнняў не было ні на самім сайце, ні ў сацсетках, захоўвалі публічнае маўчанне і мовазнаўцы-стваральнікі Корпуса.

Як стала пасля вядома, афіцыйнай прычынай была названая «недастатковая магутнасць сервераў». Але, відаць, адной гэтай прычынай спыненне працы не абмяжоўваецца.

Корпус складаўся з некалькіх падкорпусаў: асноўнага, неразабраных тэкстаў, газет і сайтаў, беларускіх Вікіпедый абодвух правапісаў. Такім чынам Корпус уключаў велізарную колькасць сучасных тэкстаў на беларускай мове, у тым ліку публікацыі беларускамоўных СМІ, прадукцыя большасці з якіх была прызнаная рэжымам Лукашэнкі «экстрэмісцкімі» матэрыяламі. Менавіта падкорпус газет і сайтаў першым знік з выдачы яшчэ да поўнага адключэння Корпуса. 

Няспыннае пашырэнне «забароненай» прадукцыі працягвала значна скарачаць кола сучасных тэкстаў на беларускай мове, якія можа выкарыстоўваць у Корпусе, а канвеернасць прызнання ўсяго «экстрэмісцкім», рабіла немагчымым пастаяннае адсочванне і ўнясенне адпаведных зменаў у велізарную базу. 

Крамольную для рэжыму па сэнсе і падачы інфармацыю маглі змяшчаць і тэксты без «экстрэмісцкага» статусу. Цэнзураванне зместу тэкстаў не з’яўляецца задачай Корпуса і супярэчыць яго сутнасці, фізічна і тэхнічна немагчыма выявіць небяспечныя фрагменты ў мільярдзе словаўжыванняў. 

У такім разе спыненне працы Корпуса з меркаванняў уласнай бяспекі выглядае цалкам лагічным.

Статыстыка Корпуса беларускай мовы ў пачатку 2023 года і ў пачатку 2024 года. 

Праца Корпуса была адноўлена 19 студзеня, але ў моцна скарочаным выглядзе. Калі ў пачатку 2023 года агулам корпус налічаў каля 1 млрд слоў, то сёння засталося толькі 124 млн, або 12%. 

З аднаго боку, гэта добра кладзецца ў афіцыйную версію пра магутнасці сервераў. Але ў адноўленым Корпусе не проста скараціліся, а цалкам зніклі цэлыя падкорпусы: Корпус неапрацаваных тэкстаў (907 млн слоў), які ўключаў тэксты з сайтаў kamunikat.org (465 млн слоў) і knihi.com (432 млн слоў), канкарданс беларускай мовы XIX ст., які ўключаў практычна ўсе захаваныя творы мастацкай літаратуры, напісаныя ў названы перыяд на беларускай мове (287 тыс. слоў), і корпус абедзвюх беларускіх Вікіпедый (124 млн слоў).

Дунін-Марцінкевіч, Сыракомля і Багушэвіч, у чыіх творах шукаюць экстрэмізм прарасійскія актывісты. Фота: Wikimedia Commons

Гэтыя змены лёгка патлумачыць: Вікіпедыя застаецца свабодным і непадцэнзурным рэсурсам, канкарданс XIX ст. змяшчае антырасійскія творы Дуніна-Марцінкевіча, Багушэвіча, Каратынскага і іншых дзеячаў, якія або прызнаныя экстрэмісцкімі, або з’яўляюцца аб’ектам нападкаў прарасійскіх блогераў, а сайт kamunikat.org заблакаваны па рашэнні Міністэрства інфармацыі.

Небагаты выбар ідэалагічна правільных дзяржаўных вэб-рэсурсаў, на якіх ёсць хоць нешта па-беларуску

Адроджаны корпус вэб-рэсурсаў сёння ўключае толькі сайты дзяржаўных «БелТА», газеты «Звязда», Белтэлерадыёкампаніі і афіцыйны сайт Лукашэнкі, цалкам ігнаруючы велізарны і разнастайны масіў тэкстаў, які дзесяцігоддзямі ствараўся незалежнымі медыя. Агулам атрымалася 106 млн слоў — кропля на месцы колішняга мора.

Магчыма, корпус яшчэ будзе дапоўнены іншымі матэрыяламі, але многія туды ўжо не вернуцца праз ідэалогію сённяшняга беларускага рэжыму. 

«Наша Нiва» — бастыён беларушчыны

ПАДТРЫМАЦЬ

Каментары2

  • Ганьба
    23.01.2024
    Усё больш выглядае на тое, што беларусам наканавана знікнуць як нацыі. Усплёск 20-га мог быць прыгожай кропкай. Нацыя аказалася няздатнай на ўзброены супраціў фашысцкаму прадажнаму рэжыму, пасіўная большасць някепска ўладкавалася пры ім, меньшасць патроху адаптуецца за мяжой, ва ўнутранай эміграцыі ці сядзіць. Ніякага рэальнага змагання не адбываецца - пікеты ля амбасад і канцэрты - важныя як дадатак, але бессэнсоўныя самі па сабе.
  • Gorliwy Litwin
    23.01.2024
    Вельмі шкада. я толькі пачаў ім карыстацца актыўна, за некалькі месяцаў да адключэння . Праблема нова-беларускай мовы ў тым што яна ад пачатку існуе толькі ў нішы, выдзеленай для яе расійскай імперыяй, як і ўсе іншыя башкірскія ды якуцкія. На ўзроўні аленеводаў і хлебаробаў. той хто прымае такія правілы гульні, таго могуць узяць у абойму, пісаць пра леніна, сталіна, пуціна, надоі і купальле-русальле. А нічога што супраць рускай цывілізацыі, асабліва што панскае, лацінскае, польска-літоўскае - каб ня смелі пікнуць

Былы афіцэр, выжыў у страшным баі. Хто той каліновец Верамейчык, якога В’етнам аддаў беларускаму КДБ?32

Былы афіцэр, выжыў у страшным баі. Хто той каліновец Верамейчык, якога В’етнам аддаў беларускаму КДБ?

Усе навіны →
Усе навіны

У Азіі затрымалі былога байца Палка Каліноўскага20

Памілавалі яшчэ 32 палітвязняў9

Комік Нарышкін расказаў, як яму забаранілі ўезд у Літву2

«Нас, лічы, выкралі!» Хлопец з дзяўчынай не выйшлі з аўтобуса на канчатковым прыпынку, і кіроўца звёз іх2

Капітанам кітайскага судна, якое падазраюць у пашкоджанні кабеляў на дне Балтыйскага мора, аказаўся грамадзянін Расіі5

У Мінску людзі ўначы выстройваюцца ў чэргі, каб купіць рэдкія манеты

Расійскі самалёт скінуў бомбу на школу ў Белгарадскай вобласці4

МУС паказала трэніроўку разгону мітынгаў ФОТЫ13

Арыштаваны дом Цапкалаў у Мінску не прадалі на аўкцыёне — не знайшлося ахвотных1

больш чытаных навін
больш лайканых навін

Былы афіцэр, выжыў у страшным баі. Хто той каліновец Верамейчык, якога В’етнам аддаў беларускаму КДБ?32

Былы афіцэр, выжыў у страшным баі. Хто той каліновец Верамейчык, якога В’етнам аддаў беларускаму КДБ?

Галоўнае
Усе навіны →