Detekcija političnega prepričanja v novicah z uporabo velikih jezikovnih modelov

POTOČNIK, ALJAŽ

Detekcija političnega prepričanja v novicah z uporabo velikih jezikovnih modelov
ID POTOČNIK, ALJAŽ (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (682,89 KB)
MD5: 57AB371916FA6FB79ADF81FAE0B89607

Izvleček

V diplomskem delu analiziramo pristranskost slovenskih novičarskih medijev do politično-ideoloških tem ter oseb, ki se pogosto pojavljajo v njih. Članke želimo klasificirati v razrede (proti, za, ni) glede na pristranskost oziroma naklonjenost avtorja neki temi ali osebi. Detekcija pristranskosti v slovenskem jeziku še ni rešena, saj ne obstaja podatkovna množica za ta problem. Za učenje naših modelov smo uporabili javno dostopno označeno učno množico objav na omrežju Twitter. Uporabili smo angleško in prevedeno slovensko verzijo te učne množice. Sami smo za evalvacijo označili 150 slovenskih člankov. Preizkusimo dva klasifikacijska modela, ki temeljita na modelu BERT, SloBERTa in CroSloEngualBERT. Poizkusi kažejo precejšnje razlike med tematikami. Večina modelov najbolje napoveduje na celotnih člankih. Najboljše rezultate smo dobili na tematiki feminizem z mero F1 enako 0,58 najslabše pa na tematiki ateizem z mero F1 enako 0,33.

Jezik:	Slovenski jezik
Ključne besede:	Obdelava naravnega jezika, detekcija pristranskosti, model BERT, večjezikovni modeli, medjezikovni prenos, CroSloEngualBERT, SloBERTa
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2023
PID:	20.500.12556/RUL-144133
COBISS.SI-ID:	142949123
Datum objave v RUL:	01.02.2023
Število ogledov:	1629
Število prenosov:	149
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Political stance detection in news using large language models
We analyse the bias of Slovenian news media towards political-ideological topics and people who often appear in them. We want to classify the articles into classes (against, for, neutral) according to authors' inclination towards a certain topic or person. Stance detection in Slovene language is not yet solved, as there is no dataset for this problem. To learn our models, we used a publicly available labelled training set of Twitter posts in English and in the translated Slovenian version. We test two classification models based on the BERT model, SloBERTa and CroSloEngualBERT. The experiments show significant differences between the topics. Most models predict best on full articles. The best results were obtained on the topic of feminism with the F1-measure of 0,58 and the worst on the topic of atheism with the F1-measure of 0,33.
Ključne besede:	Natural language processing, stance detection, BERT model, multilanguage models, crosslingual transfer, CroSloEngualBERT, SloBERTa

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj