Računalniška analiza čustev in tem v Wikiviru

Popič, Damjan

Podrobno

Računalniška analiza čustev in tem v Wikiviru
ID Popič, Damjan (Avtor)

	PDF - Predstavitvena datoteka, prenos (466,15 KB) MD5: C1EBDAB88D1B0051D9DFCF305DA14C09
	URL - Izvorni URL, za dostop obiščite https://centerslo.si/simpozij-obdobja/zborniki/obdobja-44/

Izvleček

V prispevku predstavimo računalniško analizo tem in čustev v korpusu slovenske književnosti, prosto dostopni v repozitoriju Wikivir. Pri tem predstavimo tako pristop k izgradnji korpusa, ki ga želimo v analizo ponuditi tudi drugim raziskovalcem v okviru platforme SketchEngine in na repozitoriju Clarin, kot tudi metodo za analizo čustev in prevladujočih tematik v obsežnih podatkovnih zbirkah. Pri raziskavi poskušamo izpostaviti glavne tematske poudarke v različnih časovnih obdobjih, žanrih in pri različnih avtorjih ter prevladujoča čustva, pri čemer uporabimo tako leksikonski pristop kot tudi analizo sentimenta. Kljub neprecenljivemu bogastvu digitaliziranega slovenskega leposlovja na Wikiviru je bil ta vir zaradi zapletenosti označevalnika MediaWiki, razpršenosti prenesenih besedil ter zahtevnosti pretvarjanja in procesiranja besedil do zdaj slabo izkoriščen za obsežnejše raziskave, ki bi temeljile na računalniškem procesiranju naravnega jezika. Za namene te raziskave smo pripravili korpus prosto dostopne slovenske književnosti, ki zajema nekaj več kot 62 milijonov besed, nabranih iz 22.919 različnih besedil, ki so v Wikiviru (nekonsistentno) označena z več kot 2000 različnimi kategorijami oz. metapodatki (avtor, leto, stoletje, žanr ipd.). Te podatke poskušamo z uporabo računalniških pristopov tudi sistematizirati ter natančneje predstaviti distribucijo besedil, objavljenih v Wikiviru.

Jezik:	Slovenski jezik
Ključne besede:	slovenska književnost, Wikivir, procesiranje naravnega jezika, LDA, leksikon čustev
Tipologija:	1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija:	FF - Filozofska fakulteta
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2025
Št. strani:	Str. 269-278
PID:	20.500.12556/RUL-179272
UDK:	821.163.6:159.942:004
DOI:	10.4312/Obdobja.44.269-278
COBISS.SI-ID:	259649283
Datum objave v RUL:	09.02.2026
Število ogledov:	154
Število prenosov:	38
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Čustva in slovenska književnost
Uredniki:	Alojzija Zupan Sosič
Kraj izida:	Ljubljana
Založnik:	Založba Univerze
Leto izida:	2025
ISBN:	978-961-297-712-2
COBISS.SI-ID:	256053251
Naslov zbirke:	Zbirka Obdobja
Številčenje v zbirki:	44
ISSN zbirke:	1408-211X

Licence

Licenca:	CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:	Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
This article presents a computational analysis of themes and emotions in the corpus of Slovenian literature, freely available on Wikivir (i.e., the Slovenian Wikisource). It presents the approach used to build the corpus, which is also made freely available to other researchers, as well as the method for analyzing emotions and predominant topics in large databases. The research highlights the main thematic emphases in different time periods, genres, and authors, as well as the predominant emotions, using both a lexical approach and sentiment analysis. Despite the invaluable wealth of the digitized Slovenian literature on Wikivir, this source has been underutilized for more extensive research based on natural language processing due to the complexity of the MediaWiki tagger, the dispersion of transferred texts, and the complexity of text conversion and processing. For the purposes of this research, a corpus of freely accessible Slovenian literature was compiled, comprising just over 62 million words collected from 22,919 texts, which are (inconsistently) annotated on Wikivir with over two thousand categories or metadata (author, year, century, genre, etc.). These data are also being systematized using automatized approaches, thus presenting a more accurate distribution of texts published on Wikivir.
Ključne besede:	Slovenian literature, Wikisource, natural language processing, LDA, emotion lexicon, Wikivir

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj