Štučny intelekt navučyŭsia movie darknetu i ciapier moža raspaznavać kibierpahrozy
Daśledčyki z Paŭdniovaj Karei praviali navučańnie moŭnaj madeli DarkBERT na tekstach z darknetu, dzie ludzi kamunikujuć na słenhu, jaki adroźnivajecca ad movy zvyčajnaha internetu. Jany śćviardžajuć, što ciapier niejrasietka DarkBERT spraŭlajecca z zadačami kibierbiaśpieki lepš za inšyja madeli.
Darknet — heta schavanaja ad pošukavych sistem častka internetu. U jaje nielha patrapić praz zvyčajny braŭzier. Aŭtary daśledavańnia dla ŭvachodu ŭ darknet vykarystoŭvali braŭzier Tor. Znosiny karystalnikaŭ u «ciomnaj» častcy internetu adbyvajucca ananimna, tamu ich składana adsačyć.
Z-za takich pieravah darknet staŭ płatformaj dla ŭsiakaj niezakonnaj dziejnaści, ad uciečki danych da handlu zabaronienymi rečami. Śpiecyjalisty pa kibierbiaśpiecy pastajanna šukajuć sposaby manitoryć i vyvučać teksty ŭ darknecie.
Takija moŭnyja madeli, jak niejrasietki, ciapier vykarystoŭvajucca dla vyvučeńnia roznych tekstaŭ. Jany byli navučanyja na vialikim abjomie danych i paśpiachova spraŭlajucca z zadačami, źviazanymi z razumieńniem movy.
Jany zdolnyja analizavać teksty, vyznačać ich sens i vyjaŭlać važnyja aśpiekty. Heta dazvalaje vykarystoŭvać moŭnyja madeli ŭ takich halinach, jak aŭtamatyčny pierakład, sintez havorki, analiz tanalnaści tekstaŭ i ŭ šmat inšych.
Moŭnyja madeli zvyčajna pravodziać navučańnie na vybarkach tekstaŭ z roznych krynic: internetu, knih, artykułaŭ, navin. Heta dazvalaje im razumieć i adroźnivać roznyja styli: mastacki, navukovy, styl paviedamleńniaŭ u sacyjalnych sietkach i h. d.
Adnak u vybarki nie traplali materyjały z darknetu, a jany majuć svaje asablivaści ŭ leksicy, raźmierkavańni čaścin movy i sintaksisie. Daśledčyki z Paŭdniovaj Karei vyrašyli likvidavać hety niedachop.
Hrupa vučonych z Karejskaha instytuta pieradavych technałohij sabrała korpus tekstaŭ z daknetu i navučyła jaho movie madel DarkBERT. Vyniki svajho daśledavańnia jany pradstavili na płatformie arxiv.org.
Dla papiaredniaha navučańnia DarkBERT daśledčyki stvaryli vialiki tekstavy korpus z darknetu. Jany pačali sa zboru pačatkovych adrasoŭ z pošukavaj sistemy Ahmia, jakaja pracuje ŭ darknecie i daje dostup da sajtaŭ, jakija nie indeksujucca zvyčajnymi pošukavymi sistemami, i publičnych schoviščaŭ sa śpisam damienaŭ z pašyreńniem «.onion».
Daśledčyki skanavali Dark Web, pašyrajučy svoj śpis damienaŭ i zachoŭvajučy zahałovak HTML i asnoŭnyja elemienty kožnaj staronki ŭ vyhladzie tekstavaha fajła. Zatym jany adabrali staronki na anhlijskaj movie. U vyniku korpus dakumientaŭ skłaŭ kala 6,1 miljona staronak, jakija paźniej byli apracavanyja z metaj vydaleńnia staronak ź nizkim utrymańniem infarmacyi, dublikataŭ i kanfidencyjnych danych.
Dla navučańnia vykarystoŭvali madel RoBERTa, zasnavanuju na architektury Transformer, vybranaj z-za taho, što nie ŭklučaje zadaču pradkazańnia nastupnaha skaza (NSP). Paśla navučańnia na tekstach darknetu atrymałasia hatovaja madel DarkBERT. Jaje jakaść paraŭnoŭvali sa standartnymi madelami RoBERTa i BERT, jakija vučylisia na zvyčajnych tekstach u dźviuch viersijach: apracavanaj i nieapracavanaj.
A zatym praviali teściravańnie moŭnych madelaŭ na roznych scenaryjach kibierpahroz. Im nieabchodna było vyznačyć, ci źmiaščaje tekst sajta skradzienyja danyja.
Viadoma, što časam złamyśniki vykradajuć kanfidencyjnyja danyja z sajtaŭ i vymahajuć u ich uładalnikaŭ hrošy. Kali hrošy nie pastupajuć, jany publikujuć skradzienyja danyja.
Niejrasietki atrymlivali tekst sajta i vyrašali zadaču binarnaj kłasifikacyi.
Dla hetaha daśledčyki vyvučali sajty ŭciečki danych, na jakich publikujucca kanfidencyjnyja źviestki arhanizacyj. Na praciahu dvuch hadoŭ (z maja 2020 hoda pa krasavik 2022 hoda) jany sabrali danyja z 54 papularnych hrup vymahalnikaŭ, jakija publikujuć infarmacyju ab uciečcy.
Dla stanoŭčaha kłasa prykładaŭ vypadkovym čynam vybirałasia nie bolš za try staronki z roznymi nazvami. Dla admoŭnaha vykarystoŭvalisia staronki Dark Web sa źmiestam, padobnym da sajtaŭ uciečki, u pryvatnaści, u katehoryjach chakierstva, kryptavaluta, finansy. Kančatkovy nabor danych dla navučańnia składaŭsia sa 105 stanoŭčych i 679 admoŭnych prykładaŭ.
DarkBERT prademanstravaŭ vysokuju pradukcyjnaść u paraŭnańni ź inšymi moŭnymi madelami ŭ razumieńni movy, jakaja vykarystoŭvajecca na padpolnych chakierskich forumach u Dark Web.
Niahledziačy na toje, što DarkBERT vykarystoŭvaje RoBERTa ŭ jakaści bazavaj madeli, pradukcyjnaść RoBERTa značna źniziłasia ŭ paraŭnańni ź inšymi madelami. Charakterna, što viersija DarkBERT z vykarystańniem papiaredniaj apracoŭki ŭvodu pierasiahnuła tuju, jakaja vykarystoŭvaje nieapracavany ŭvod. Heta padkreślivaje važnaść papiaredniaj apracoŭki tekstu dla skaračeńnia niepatrebnaj infarmacyi.
Nastupnaja zadača, jakuju vyrašali moŭnyja madeli — razumieńnie paviedamleńniaŭ z forumaŭ darknetu, jakija časta vykarystoŭvajucca dla niezakonnaha abmienu infarmacyjaj i patrabujuć kantrolu za patencyjna škodnymi temami.
Pravierka hetych patokaŭ uručnuju zajmaje šmat času, tamu aŭtamatyzacyja hetaha pracesu moža dapamahčy ekśpiertam pa biaśpiecy. Daśledčyki znoŭ sfarmulavali zadaču jak prablemu binarnaj kłasifikacyi, kab pradkazać, ci vartaja ŭvahi kankretnaja tema forumu.
Niejrasietki vyłučali klučavyja słovy ŭ paviedamleńniach ab zabaronienych rečyvach. Takija klučavyja słovy mohuć spatrebicca supracoŭnikam pravaachoŭnych orhanaŭ, kab chutka šukać paviedamleńni ab prodažy rečyvaŭ i vyznačać pradaŭcoŭ.
Hetuju zadaču prateściravali na DarkBERT i madeli BERT. Tut DarkBERT znoŭ abyšoŭ kankurenta (dakładnaść vyznačeńnia top-10 klučavych słoŭ 60 % u DarkBERT suprać 40 % u BERT).
U cełym vyniki pakazvajuć, što papiarednie navučanaja na tekstach z darknetu niejrasietka DarkBERT spraŭlajecca z zadačami kibierbiaśpieki lepš, čym inšyja madeli. Jaje možna vykarystoŭvać dla manitorynhu nielehalnaj aktyŭnaści ŭ darknecie, vyličvać złačyncaŭ i praduchilać uciečku danych.
Čytajcie jašče:
Nieŭrołahi navučyli štučny intelekt čytać čałaviečyja dumki
Kitaj choča, kab štučny intelekt adlustroŭvaŭ asnoŭnyja kaštoŭnaści sacyjalizmu
Kamientary