Diskusije na spletnih forumih se od drugih besedilnih dokumentov razlikujejo v
mnogih pogledih. Ob dejstvu, da so posamezne izjave v obliki komentarjev po navadi
zelo kratke, imajo te tudi različne sporočevalce – izmed katerih lahko vsak uporablja
drugačno shemo nenaravne rabe ločil in nedokumentiranega spletnega žargona. Pri
zbirkah tovrstnih besedil posledično ne moremo uporabljati številnih najsodobnejših
tehnologij za povzemanje. V tem diplomskem delu so predstavljene tiste, ki jih lahko.
V delu analiziramo področje povzemanja spletnega diskurza. Največ pozornosti
posvetimo koraku oblikovanja tematskih predstavitev v trenutno najpogosteje
rabljenem postopku za tovrstno povzemanje besedil. Podana je podrobna teoretična
podlaga za vse v njem uporabljene prijeme obdelave naravnega jezika. Eksterno
ocenimo tri metode tematskega gručenja spletnih komentarjev in doženemo zaključek,
da so Latentna Dirichletova alokacija, vgradnja besed in dimenzionalno-zmanjšane
hiperrazsežne predstavitve primerljivo primerne tehnologije za to nalogo. Nazadnje
predstavimo tudi novo ogrodje za povzemanje spletnih pogovorov, ki deluje na
osnovah povzemanja z abstrahiranjem in tako predstavimo možno usmeritev
nadaljnjega dela v tej sferi. Rezultati eksperimentov kažejo, da se neodvisni sistemi,
uporabljeni v našem ogrodju, povežejo v smiselno celoto, zmožno generiranja jasnih
in berljivih tekstovnih izvlečkov spletnih pogovorov.
|