izpis_h1_title_alt

Discussion summarization using natural language processing techniques
ID Stropnik, Vid (Author), ID Bosnić, Zoran (Mentor) More about this mentor... This link opens in a new window, ID Osipov, Evgeny (Comentor)

.pdfPDF - Presentation file, Download (2,87 MB)
MD5: 2F0CF0590324475B87557C120994CD72

Abstract
Discussions held on online forums differ from traditional text documents in several ways. In addition to individual utterances usually being very short, they also have multiple messengers, each of whom may exhibit their own form of non-natural punctuation and undocumented internet lingo use. Consequently, the current state-ofthe-art methods for summarizing text and providing a clear, coherent picture of the topics discussed in a comments section cannot be easily applied to these sorts of corpora. This thesis discusses the techniques that can. In this work, we analyse the field of online discussion summarization. We pay the most attention to the topic modeling step of the current state-of-the-art method for this task, providing detailed theoretical explanations for each technique used therein. We externally examine three topical-clustering methods, concluding that Latent Dirichlet Allocation, word embeddings and dimensionally-reduced hyperdimensional computing can be considered comparable for this use-case. Additionally, a novel abstractive summarizer framework is proposed and compared to the current state-ofthe-art output, shedding a light on the potential direction of future work in the field. The experimental results show that the distinct systems used in our summarizer synergize well to produce legible and coherent conversation abstractions.

Language:English
Keywords:bstractive summarization, Online discussion summarization, Latent Dirchlet Allocation, Word embeddings, Hyperdimensional computing, Dimensionality reduction, Topic Labeling, Sentiment Analysis
Work type:Undergraduate thesis
Organization:FE - Faculty of Electrical Engineering
Year:2020
PID:20.500.12556/RUL-119504 This link opens in a new window
Publication date in RUL:09.09.2020
Views:1616
Downloads:187
Metadata:XML DC-XML DC-RDF
:
Copy citation
Share:Bookmark and Share

Secondary language

Language:Slovenian
Title:Povzemanje diskusije z metodami za analizo naravnega jezika
Abstract:
Diskusije na spletnih forumih se od drugih besedilnih dokumentov razlikujejo v mnogih pogledih. Ob dejstvu, da so posamezne izjave v obliki komentarjev po navadi zelo kratke, imajo te tudi različne sporočevalce – izmed katerih lahko vsak uporablja drugačno shemo nenaravne rabe ločil in nedokumentiranega spletnega žargona. Pri zbirkah tovrstnih besedil posledično ne moremo uporabljati številnih najsodobnejših tehnologij za povzemanje. V tem diplomskem delu so predstavljene tiste, ki jih lahko. V delu analiziramo področje povzemanja spletnega diskurza. Največ pozornosti posvetimo koraku oblikovanja tematskih predstavitev v trenutno najpogosteje rabljenem postopku za tovrstno povzemanje besedil. Podana je podrobna teoretična podlaga za vse v njem uporabljene prijeme obdelave naravnega jezika. Eksterno ocenimo tri metode tematskega gručenja spletnih komentarjev in doženemo zaključek, da so Latentna Dirichletova alokacija, vgradnja besed in dimenzionalno-zmanjšane hiperrazsežne predstavitve primerljivo primerne tehnologije za to nalogo. Nazadnje predstavimo tudi novo ogrodje za povzemanje spletnih pogovorov, ki deluje na osnovah povzemanja z abstrahiranjem in tako predstavimo možno usmeritev nadaljnjega dela v tej sferi. Rezultati eksperimentov kažejo, da se neodvisni sistemi, uporabljeni v našem ogrodju, povežejo v smiselno celoto, zmožno generiranja jasnih in berljivih tekstovnih izvlečkov spletnih pogovorov.

Keywords:ovzemanje z abstrahiranjem, povzemanje spletnega diskurza, Latentna Dirichletova alokacija, vgradnje besed, hiperrazsežno računanje, razsežnostno krčenje, označevanje tem, čustvena analiza

Similar documents

Similar works from RUL:
Similar works from other Slovenian collections:

Back