izpis_h1_title_alt

Cross-lingual embeddings for hate speech detection in comments
Marinšek, Rok (Avtor), Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu, Fraser, Alexander M. (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (648,50 KB)

Izvleček
With the recent explosion of social media content, the amount of online hate speech is increasing, making it impossible to filter it manually. For automatic hate speech detection, a lot of annotated data is needed, which is mostly available for high-resource languages. In spite of data scarcity in low-resource languages, we want to detect hate speech in those languages. We use cross-lingual embeddings to achieve an acceptable performance in hate speech detection in a target language, using data from another language. We use hate speech comments from English, German, and Croatian. We use fastText word embeddings, align them with the RCSLS method, and achieve reasonable performance in 2 out of 6 language pairs. With Multilingual BERT, we improve upon this method, and achieve acceptable performance in 3 out of 6 language pairs.

Jezik:Angleški jezik
Ključne besede:word embedding, cross-lingual embedding, deep learning, hate speech detection, natural language processing, RCSLS method, BERT language model
Vrsta gradiva:Magistrsko delo/naloga (mb22)
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2019
COBISS.SI-ID:1538458051 Povezava se odpre v novem oknu
Število ogledov:251
Število prenosov:146
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
 
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
:
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Uporaba medjezičnih vektorskih vložitev za odkrivanje sovražnega govora v komentarjih
Izvleček:
V zadnjih letih se je z eksplozijo vsebin na družbenih medijih povišala količina sovražnega govora. Zaradi velike količine podatkov je ročno moderiranje sovražnih vsebin nemogoče. Trenutno za avtomatsko odkrivanje sovražnega govora najpogosteje uporabljamo nevronske mreže. Za njihovo učenje je potrebno veliko označenih primerov, ki so večinoma na voljo le za večje jezike, npr. za angleščino. Označenih podatkov za manjše jezike je načeloma malo. Vseeno bi želeli tudi v teh jezikih zaznavati sovražni govor. V tem delu s pomočjo medjezikovnih vložitev razvijemo metodo, ki ob prenosu dosega sprejemljive rezultate za ciljni jezik. Komentarji s sovražnim govorom so v angleščini, nemščini in hrvaščini. Uporabimo fastText vložitve, jih poravnamo z metodo RCSLS, in dosežemo sprejemljive rezultate za dva od šestih jezikovnih parov. Z modelom BERT izboljšamo to metodo in dosežemo sprejemljive rezultate za tri od šestih jezikovnih parov.

Ključne besede:vektorska vložitev, medjezikovna vložitev, globoko učenje, odkrivanje sovražnega govora, obdelava naravnega jezika, metoda RCSLS, jezikovni model BERT

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj