izpis_h1_title_alt

Anonimizacija sodnih odločb z metodami strojnega učenja
HÜLL, GAŠPER (Avtor), Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (260,59 KB)

Izvleček
Anonimizacija sodnih odločb služi zakrivanju in zaščiti podatkov posameznika v primeru, da bi mu njihovo razkritje lahko škodovalo. V skladu z zakonodajo se morajo podatki, preko katerih lahko enolično določimo posameznika, anonimizirati. Sodne odločbe so pretežno sestavljene le iz prostega besedila. Razpoznavanje entitet v njih zato zahteva razumevanje jezika in vsebine besedila, pomemben pa je tudi kontekst, v katerem so posamezne besede uporabljene. Anonimizacija sodnih odločb je zaradi tega težavna. V delu se osredotočam prav na razpoznavanje entitet, ki so potrebne anonimizacije. Podatke sem pridobil iz portala sodne prakse IUS-INFO, za njihovo obdelavo pa sem uporabil globoko nevronsko mrežo izdelano po zgledu modela BERT. Besede sem glede na njihovo vektorsko vložitev klasificiral kot "anonimiziraj" oziroma "ne anonimiziraj". Obstoječi sistemi anonimizacije za predstavitev besed uporabljajo ročno pripravljene vektorje značilk. V delu sem pokazal, da je anonimizacija uspešnejša z uporabo vektorskih vložitev modela BERT, saj je bila uspešna že z uporabo majhne učne množice namenjene razpoznavanju imenskih entitet. Še boljše rezultate sem dosegel z uporabo učne množice zgrajene iz označenih sodnih odločb.

Jezik:Slovenski jezik
Ključne besede:strojno učenje, anonimizacija, sodna odločba, model BERT
Vrsta gradiva:Diplomsko delo/naloga (mb11)
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2020
COBISS.SI-ID:1538538947 Povezava se odpre v novem oknu
Število ogledov:139
Število prenosov:63
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
 
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
:
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Anonymization of case law with machine learning
Izvleček:
Anonymization of court decisions conceals and protects the information of an individual if its disclosure could be harmful. In accordance to the legislation, all data which enables unique identification of an individual, must be anonymized. Court decisions are mostly textual. Identifying entities that need anonymization therefore requires an understanding of the language and content of the text, where context in which individual words are used is also important. This makes anonymization of court decisions is therefore difficult. In my thesis I focus on identification of entities that need anonymization. I obtained the data from the IUS-INFO case-law portal and used a deep neural network based on the BERT model to process it. I classified words as "anonymize" or "do not anonymize". Existing anonymization systems use manually extracted features. I show that anonymization is more successful using the vector inputs of the BERT model, which were successful using only of a small learning set designed to identify named entities. Anonymization was even better using the learning set built from annotated court decisions.

Ključne besede:machine learning, anonymization, case law, BERT model

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj