izpis_h1_title_alt

Discussion summarization using natural language processing techniques
ID Stropnik, Vid (Avtor), ID Bosnić, Zoran (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Osipov, Evgeny (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (2,87 MB)
MD5: 2F0CF0590324475B87557C120994CD72

Izvleček
Discussions held on online forums differ from traditional text documents in several ways. In addition to individual utterances usually being very short, they also have multiple messengers, each of whom may exhibit their own form of non-natural punctuation and undocumented internet lingo use. Consequently, the current state-ofthe-art methods for summarizing text and providing a clear, coherent picture of the topics discussed in a comments section cannot be easily applied to these sorts of corpora. This thesis discusses the techniques that can. In this work, we analyse the field of online discussion summarization. We pay the most attention to the topic modeling step of the current state-of-the-art method for this task, providing detailed theoretical explanations for each technique used therein. We externally examine three topical-clustering methods, concluding that Latent Dirichlet Allocation, word embeddings and dimensionally-reduced hyperdimensional computing can be considered comparable for this use-case. Additionally, a novel abstractive summarizer framework is proposed and compared to the current state-ofthe-art output, shedding a light on the potential direction of future work in the field. The experimental results show that the distinct systems used in our summarizer synergize well to produce legible and coherent conversation abstractions.

Jezik:Angleški jezik
Ključne besede:bstractive summarization, Online discussion summarization, Latent Dirchlet Allocation, Word embeddings, Hyperdimensional computing, Dimensionality reduction, Topic Labeling, Sentiment Analysis
Vrsta gradiva:Diplomsko delo
Organizacija:FE - Fakulteta za elektrotehniko
Leto izida:2020
PID:20.500.12556/RUL-119504 Povezava se odpre v novem oknu
Datum objave v RUL:09.09.2020
Število ogledov:1612
Število prenosov:187
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Povzemanje diskusije z metodami za analizo naravnega jezika
Izvleček:
Diskusije na spletnih forumih se od drugih besedilnih dokumentov razlikujejo v mnogih pogledih. Ob dejstvu, da so posamezne izjave v obliki komentarjev po navadi zelo kratke, imajo te tudi različne sporočevalce – izmed katerih lahko vsak uporablja drugačno shemo nenaravne rabe ločil in nedokumentiranega spletnega žargona. Pri zbirkah tovrstnih besedil posledično ne moremo uporabljati številnih najsodobnejših tehnologij za povzemanje. V tem diplomskem delu so predstavljene tiste, ki jih lahko. V delu analiziramo področje povzemanja spletnega diskurza. Največ pozornosti posvetimo koraku oblikovanja tematskih predstavitev v trenutno najpogosteje rabljenem postopku za tovrstno povzemanje besedil. Podana je podrobna teoretična podlaga za vse v njem uporabljene prijeme obdelave naravnega jezika. Eksterno ocenimo tri metode tematskega gručenja spletnih komentarjev in doženemo zaključek, da so Latentna Dirichletova alokacija, vgradnja besed in dimenzionalno-zmanjšane hiperrazsežne predstavitve primerljivo primerne tehnologije za to nalogo. Nazadnje predstavimo tudi novo ogrodje za povzemanje spletnih pogovorov, ki deluje na osnovah povzemanja z abstrahiranjem in tako predstavimo možno usmeritev nadaljnjega dela v tej sferi. Rezultati eksperimentov kažejo, da se neodvisni sistemi, uporabljeni v našem ogrodju, povežejo v smiselno celoto, zmožno generiranja jasnih in berljivih tekstovnih izvlečkov spletnih pogovorov.

Ključne besede:ovzemanje z abstrahiranjem, povzemanje spletnega diskurza, Latentna Dirichletova alokacija, vgradnje besed, hiperrazsežno računanje, razsežnostno krčenje, označevanje tem, čustvena analiza

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj