Pravni in sodni dokumenti lahko vsebujejo občutljive podatke, ki ne bi smeli biti dostopni vsem. Večina javno dostopnih dokumentov je le delno anonimiziranih ali pa uporablja splošni sistem anonimizacije, zaradi česar so enkrat anonimizirani podatki neprimerni za nadaljnje raziskovanje.
Osredotočeni smo na razvoj več tipov anonimizacijskih sistemov, z implementacijo NER, POS označevanja, koreferenčne ločljivosti ter specifičnih anonimizacijskih pravil, ki ciljajo na slovenske subjekte. Modeli anonimizacije so integrirani v javno dostopno spletno orodje, ki omogoča priročno in hitro anonimizacijo v štirih različnih načinih, odvisno od občutljivosti dokumentov.
Dobljeni rezultati dokazujejo, da lahko razviti modeli uspešno anonimizirajo slovenske dokumente. Anonimizirane dokumente je mogoče distribuirati brez poseganja v zasebnost nekoga in jih je mogoče uporabiti v različnih raziskavah v prihodnosti.
|