Avtomatsko povzemanje besedil s pomočjo semantične analize

BOŽIČ, DUŠAN

Avtomatsko povzemanje besedil s pomočjo semantične analize
ID BOŽIČ, DUŠAN (Author), ID Kononenko, Igor (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (4,78 MB)
MD5: 34684819FAC75EE92241615271FA493A
PID: 20.500.12556/rul/8696613f-e83f-44b9-851a-ee8d8a39ab05

Abstract

V magistrski nalogi smo uporabili metodo latentne semantične analize (LSA) za avtomatsko povzemanja besedila. Algoritem LSA analizira razmerja med besedami in dokumentom za izdelavo konceptov, ki opisujejo ta razmerja. V fazi predprocesiranja smo vse besede lematizirali s pomočjo slovenskega leksikona. V nalogi se povzemajo slovenski akademski prispevki, zato se uporabljajo slovenski digitalni slovarji. Rezultat analize LSA so odstavki, rangirani po pomembnosti. Najbolj obetavni odstavki so kandidati za povzetek. Za pravilno preslikavo lematiziranih odstavkov v izvorne smo v fazi predprocesiranja izvedli skladenjsko analizo izvornih besed. Pridobljeni izvleček smo spremenili v abstrakni povzetek s pomočjo semantične analize stavkov in leksikalnega veriženja. Pri tem smo uporabljali slovenski morfološki leksikon. Kvaliteto pridobljenih povzetkov smo ocenili s pomočjo algoritma ROUGE. Primerjali smo jih z izvlečki analize arhetipov in človeškimi povzetki. Za izvajanje povzemanja smo implementirali samostojen spletni program pod imenom SimpleX, ki se izvaja v strežniškem okolju s podporo podatkovne baze. Eksperimentalni rezultati kažejo, da predlagani semantični pristop omogoča povzemanja obsežnih dokumentov.

Language:	Slovenian
Keywords:	povzemanje naravnih besedil, semantična analiza, leksikalno veriženje, analiza arhetipov, ekstraktno povzemanje, semantično povzemanje, povzetki, izvlečki, SimpleX.
Work type:	Master's thesis
Organization:	FRI - Faculty of Computer and Information Science
Year:	2016
PID:	20.500.12556/RUL-86586
Publication date in RUL:	20.10.2016
Views:	1697
Downloads:	635
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Automatic text summarization using semantic analysis
In this thesis, we used a method of latent semantic analysis (LSA) for automatic multi-document summarization. LSA algorithm analyzes the relationships between words and document by producing a set of concepts that describe this relationship. In the preprocessing stage, all words were lemmatized based on Slovenian lexicon. Our work reiterated Slovenian academic contributions to science acquired from the Slovenian digital lexicons. The results of the LSA analysis are paragraphs ranked by relevance. The most promising paragraphs are candidates for the summary. For the proper mapping of the lemmatized paragraphs into the original in the phase of preprocessing we performed syntactical analysis of the source text. The resulting extract was changed into the abstract summary, using semantic analysis of sentences and lexical chaining. For this purpose we used Slovenian morphological lexicon. The quality of the obtained summaries was evaluated using the Rouge algorithm. We compared those summaries with abstracts from the analysis of archetypes and human summaries. To implement the summarization, we implemented a stand-alone web application named SimpleX, which was implemented in a server environment to support the database. Experimental results show that the proposed semantic approach helps to build a way towards the large collections of documents.
Keywords:	natural text summarization, semantic analysis, lexical chaining, analysis of archetypes, extraction-based summarization, semantic-based summarization, summaries, abstracts, SimpleX.

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents