Določanje sentimenta slovenskim spletnim komentarjem s pomočjo strojnega učenja

KADUNC, KLEMEN

Določanje sentimenta slovenskim spletnim komentarjem s pomočjo strojnega učenja
ID KADUNC, KLEMEN (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (3,62 MB)
MD5: C574DD44FA4FCDDD8A7A8491013BA59C
PID: 20.500.12556/rul/0a85bc6b-f67b-4577-877f-1d508be49077

Izvleček

Cilj diplomske naloge je izdelava orodja za sentimentno analizo besedila, konkretneje uporabniških komentarjev. Preizkusili smo več metod strojnega učenja in več metod za predobdelavo besedil, še posebej tistih za spletna besedila. Kot najboljši klasifikator se je izkazal multinomski naivni Bayes. Za izboljšanje klasifikatorja smo pripravili slovenski slovar sentimenta - seznam besed in besednih zvez s pozitivno in negativno konotacijo. Za osnovo smo vzeli angleški slovar sentimentnih besed ter ga ročno prevedli v slovenščino. Analizo sentimenta smo izvajali na ročno označenem korpusu uporabniških komentarjev, ki smo jih izluščili iz nekaterih najbolj obiskanih slovenskih novičarskih portalov. Slovar ter označen korpus uporabniških komentarjev sta naša glavna prispevka k analizi sentimenta za slovenski jezik.

Jezik:	Slovenski jezik
Ključne besede:	analiza sentimenta, strojno učenje, rudarjenje mnenj, obdelava naravnega jezika, klasifikacija, označevanje besedil, slovar sentimenta, slovenski jezik, predobdelava besedila, uporabniško generirane vsebine
Vrsta gradiva:	Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2016
PID:	20.500.12556/RUL-91182
Datum objave v RUL:	24.03.2017
Število ogledov:	2413
Število prenosov:	527
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Using machine learning for sentiment analysis of Slovene web commentaries
The purpose of this work is to develop a tool for sentiment analysis of user comments. Several machine learning classifiers were tested and multinomial naive Bayes turned out to be the best predictor. We tried several preprocessing techniques, especially those for web texts. The classifier was improved with a Slovene sentiment lexicon, which is a list of words and set phrases with a positive and a negative connotation. An English sentiment lexicon was manually translated into Slovene. The analysed corpus of user comments was manually annotated by three annotators; its entries were selected from some of the most visited Slovene news portals. Both the lexicon and the annotated corpus of user comments are the main contributions of this work.
Ključne besede:	sentiment analysis, machine learning, opinion mining, natural language processing, classification, annotating text, opinion lexicon, Slovenian language, text preprocessing, user generated content

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj