Detekcija političnega prepričanja v novicah z uporabo velikih jezikovnih modelov

POTOČNIK, ALJAŽ

Detekcija političnega prepričanja v novicah z uporabo velikih jezikovnih modelov
ID POTOČNIK, ALJAŽ (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (682,89 KB)
MD5: 57AB371916FA6FB79ADF81FAE0B89607

Abstract

V diplomskem delu analiziramo pristranskost slovenskih novičarskih medijev do politično-ideoloških tem ter oseb, ki se pogosto pojavljajo v njih. Članke želimo klasificirati v razrede (proti, za, ni) glede na pristranskost oziroma naklonjenost avtorja neki temi ali osebi. Detekcija pristranskosti v slovenskem jeziku še ni rešena, saj ne obstaja podatkovna množica za ta problem. Za učenje naših modelov smo uporabili javno dostopno označeno učno množico objav na omrežju Twitter. Uporabili smo angleško in prevedeno slovensko verzijo te učne množice. Sami smo za evalvacijo označili 150 slovenskih člankov. Preizkusimo dva klasifikacijska modela, ki temeljita na modelu BERT, SloBERTa in CroSloEngualBERT. Poizkusi kažejo precejšnje razlike med tematikami. Večina modelov najbolje napoveduje na celotnih člankih. Najboljše rezultate smo dobili na tematiki feminizem z mero F1 enako 0,58 najslabše pa na tematiki ateizem z mero F1 enako 0,33.

Language:	Slovenian
Keywords:	Obdelava naravnega jezika, detekcija pristranskosti, model BERT, večjezikovni modeli, medjezikovni prenos, CroSloEngualBERT, SloBERTa
Work type:	Bachelor thesis/paper
Typology:	2.11 - Undergraduate Thesis
Organization:	FRI - Faculty of Computer and Information Science
Year:	2023
PID:	20.500.12556/RUL-144133
COBISS.SI-ID:	142949123
Publication date in RUL:	01.02.2023
Views:	1628
Downloads:	149
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Political stance detection in news using large language models
We analyse the bias of Slovenian news media towards political-ideological topics and people who often appear in them. We want to classify the articles into classes (against, for, neutral) according to authors' inclination towards a certain topic or person. Stance detection in Slovene language is not yet solved, as there is no dataset for this problem. To learn our models, we used a publicly available labelled training set of Twitter posts in English and in the translated Slovenian version. We test two classification models based on the BERT model, SloBERTa and CroSloEngualBERT. The experiments show significant differences between the topics. Most models predict best on full articles. The best results were obtained on the topic of feminism with the F1-measure of 0,58 and the worst on the topic of atheism with the F1-measure of 0,33.
Keywords:	Natural language processing, stance detection, BERT model, multilanguage models, crosslingual transfer, CroSloEngualBERT, SloBERTa

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents