Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Keyword extraction and named entity recognition on Reddit submissions
ID
Hudobivnik, Rok
(
Avtor
),
ID
Helic, Denis
(
Mentor
)
Več o mentorju...
,
ID
Bosnić, Zoran
(
Komentor
)
PDF - Predstavitvena datoteka,
prenos
(2,13 MB)
MD5: 35F573ED0AF38E1E62B088BAD2C7D76D
Galerija slik
Izvleček
The goal of this thesis was to create a pipeline for extraction of valuable information from short natural language texts, more specifically Reddit submissions. The two main areas of research that we covered were keyword extraction and named entity recognition for the extraction of keywords and the recognition of actors and movie titles in the texts. In our thesis we implemented and evaluated four different approaches for keyword extraction (RAKE, TextRank, LSTM and biLSTM networks) and three different approaches for named entity recognition (Spacy library models, Stanford NER and Fine-tuned BERT models). The analysis of the algorithms showed that the best results were achieved when using a three layered biLSTM network for keyword extraction, an uncased BERT model fine-tuned on the MIT movie corpus dataset for the recognition of actors, and the BERT model fine-tuned on the Ontonotes 5 dataset for the recognition of movie titles.
Jezik:
Angleški jezik
Ključne besede:
Globoko učenje
,
razpoznavanje entitet
,
luščenje ključnih besed
,
analiza
Vrsta gradiva:
Magistrsko delo/naloga
Tipologija:
2.09 - Magistrsko delo
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Leto izida:
2020
PID:
20.500.12556/RUL-117614
COBISS.SI-ID:
17020419
Datum objave v RUL:
17.07.2020
Število ogledov:
1336
Število prenosov:
215
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
HUDOBIVNIK, Rok, 2020,
Keyword extraction and named entity recognition on Reddit submissions
[na spletu]. Magistrsko delo. [Dostopano 3 maj 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=117614
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Slovenski jezik
Naslov:
Luščenje ključnih besed in razpoznavanje entitet v besedilih s portala Reddit
Izvleček:
Cilj te naloge je bila konstrukcija postopka za luščenje pomembnih podatkov iz kratkih besedil v naravnem jeziku, bolj specifično objav s spletnega portala Reddit. Dve glavni področji naših raziskav sta bili luščenje ključnih besed in razpoznavanje entitet. Za namene naloge smo implementirali in analizirali štiri algoritme za luščenje ključnih besed (RAKE, TextRank, nevronske mreže LSTM in biLSTM) in tri algoritme za razpoznavanje entitet (modeli knjižnice Spacy, Stanford NER in umerjeni modeli BERT). Analiza algoritmov je pokazala, da dosežemo najboljše rezultate z uporabo nevronske mreže s tremi sloji biLSTM za luščenje ključnih besed, model biLSTM za male črke, umerjen na podatkovni zbirki MIT movie corpus, za razpoznavanje imen igralcev in model, umerjen na podatkovni zbirki Ontonotes 5, za razpoznavanje naslovov filmov.
Ključne besede:
Deep learning
,
named entity recognition
,
keyword extraction
,
analysis
Podobna dela
Podobna dela v RUL:
Vpliv izbranih dejavnikov na potrošnikovo intenco zamenjave ponudnika mobilne telefonije
Vpliv imidža države izvora in označbe kakovosti na nakupne odločitve potrošnikov
Skepticizem do Volkswagna
Analiza storitvenih vrzeli na primeru podjetja TIB Storitve, d. o. o.
Oblikovanje sistemov in procesov izvajanja storitev
Podobna dela v drugih slovenskih zbirkah:
Zadovoljstvo kupcev s kakovostjo izdelkov in storitev podjetja Biotopic d.o.o.
Kakovost izdelkov in storitev ponudnikov montažnih hiš in stavbnega pohištva skozi oči kupcev
Nazaj