Avtomatsko povzemanje besedil s pomočjo semantične analize

BOŽIČ, DUŠAN

Avtomatsko povzemanje besedil s pomočjo semantične analize
ID BOŽIČ, DUŠAN (Avtor), ID Kononenko, Igor (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (4,78 MB)
MD5: 34684819FAC75EE92241615271FA493A
PID: 20.500.12556/rul/8696613f-e83f-44b9-851a-ee8d8a39ab05

Izvleček

V magistrski nalogi smo uporabili metodo latentne semantične analize (LSA) za avtomatsko povzemanja besedila. Algoritem LSA analizira razmerja med besedami in dokumentom za izdelavo konceptov, ki opisujejo ta razmerja. V fazi predprocesiranja smo vse besede lematizirali s pomočjo slovenskega leksikona. V nalogi se povzemajo slovenski akademski prispevki, zato se uporabljajo slovenski digitalni slovarji. Rezultat analize LSA so odstavki, rangirani po pomembnosti. Najbolj obetavni odstavki so kandidati za povzetek. Za pravilno preslikavo lematiziranih odstavkov v izvorne smo v fazi predprocesiranja izvedli skladenjsko analizo izvornih besed. Pridobljeni izvleček smo spremenili v abstrakni povzetek s pomočjo semantične analize stavkov in leksikalnega veriženja. Pri tem smo uporabljali slovenski morfološki leksikon. Kvaliteto pridobljenih povzetkov smo ocenili s pomočjo algoritma ROUGE. Primerjali smo jih z izvlečki analize arhetipov in človeškimi povzetki. Za izvajanje povzemanja smo implementirali samostojen spletni program pod imenom SimpleX, ki se izvaja v strežniškem okolju s podporo podatkovne baze. Eksperimentalni rezultati kažejo, da predlagani semantični pristop omogoča povzemanja obsežnih dokumentov.

Jezik:	Slovenski jezik
Ključne besede:	povzemanje naravnih besedil, semantična analiza, leksikalno veriženje, analiza arhetipov, ekstraktno povzemanje, semantično povzemanje, povzetki, izvlečki, SimpleX.
Vrsta gradiva:	Magistrsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2016
PID:	20.500.12556/RUL-86586
Datum objave v RUL:	20.10.2016
Število ogledov:	1705
Število prenosov:	635
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Automatic text summarization using semantic analysis
In this thesis, we used a method of latent semantic analysis (LSA) for automatic multi-document summarization. LSA algorithm analyzes the relationships between words and document by producing a set of concepts that describe this relationship. In the preprocessing stage, all words were lemmatized based on Slovenian lexicon. Our work reiterated Slovenian academic contributions to science acquired from the Slovenian digital lexicons. The results of the LSA analysis are paragraphs ranked by relevance. The most promising paragraphs are candidates for the summary. For the proper mapping of the lemmatized paragraphs into the original in the phase of preprocessing we performed syntactical analysis of the source text. The resulting extract was changed into the abstract summary, using semantic analysis of sentences and lexical chaining. For this purpose we used Slovenian morphological lexicon. The quality of the obtained summaries was evaluated using the Rouge algorithm. We compared those summaries with abstracts from the analysis of archetypes and human summaries. To implement the summarization, we implemented a stand-alone web application named SimpleX, which was implemented in a server environment to support the database. Experimental results show that the proposed semantic approach helps to build a way towards the large collections of documents.
Ključne besede:	natural text summarization, semantic analysis, lexical chaining, analysis of archetypes, extraction-based summarization, semantic-based summarization, summaries, abstracts, SimpleX.

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj