Keyword extraction and named entity recognition on Reddit submissions

Hudobivnik, Rok

Podrobno

Keyword extraction and named entity recognition on Reddit submissions
ID Hudobivnik, Rok (Avtor), ID Helic, Denis (Mentor) Več o mentorju... Povezava se odpre v novem oknu

, ID Bosnić, Zoran (Komentor)

PDF - Predstavitvena datoteka, prenos (2,13 MB)
MD5: 35F573ED0AF38E1E62B088BAD2C7D76D

Izvleček

The goal of this thesis was to create a pipeline for extraction of valuable information from short natural language texts, more specifically Reddit submissions. The two main areas of research that we covered were keyword extraction and named entity recognition for the extraction of keywords and the recognition of actors and movie titles in the texts. In our thesis we implemented and evaluated four different approaches for keyword extraction (RAKE, TextRank, LSTM and biLSTM networks) and three different approaches for named entity recognition (Spacy library models, Stanford NER and Fine-tuned BERT models). The analysis of the algorithms showed that the best results were achieved when using a three layered biLSTM network for keyword extraction, an uncased BERT model fine-tuned on the MIT movie corpus dataset for the recognition of actors, and the BERT model fine-tuned on the Ontonotes 5 dataset for the recognition of movie titles.

Jezik:	Angleški jezik
Ključne besede:	Globoko učenje, razpoznavanje entitet, luščenje ključnih besed, analiza
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2020
PID:	20.500.12556/RUL-117614
COBISS.SI-ID:	17020419
Datum objave v RUL:	17.07.2020
Število ogledov:	1828
Število prenosov:	276
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Luščenje ključnih besed in razpoznavanje entitet v besedilih s portala Reddit
Cilj te naloge je bila konstrukcija postopka za luščenje pomembnih podatkov iz kratkih besedil v naravnem jeziku, bolj specifično objav s spletnega portala Reddit. Dve glavni področji naših raziskav sta bili luščenje ključnih besed in razpoznavanje entitet. Za namene naloge smo implementirali in analizirali štiri algoritme za luščenje ključnih besed (RAKE, TextRank, nevronske mreže LSTM in biLSTM) in tri algoritme za razpoznavanje entitet (modeli knjižnice Spacy, Stanford NER in umerjeni modeli BERT). Analiza algoritmov je pokazala, da dosežemo najboljše rezultate z uporabo nevronske mreže s tremi sloji biLSTM za luščenje ključnih besed, model biLSTM za male črke, umerjen na podatkovni zbirki MIT movie corpus, za razpoznavanje imen igralcev in model, umerjen na podatkovni zbirki Ontonotes 5, za razpoznavanje naslovov filmov.
Ključne besede:	Deep learning, named entity recognition, keyword extraction, analysis

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj