Samodejno luščenje definicij iz specializiranih besedil

Fišer, Darja; Pollak, Senja; Vintar, Špela

Podrobno

Samodejno luščenje definicij iz specializiranih besedil
ID Fišer, Darja (Avtor), ID Pollak, Senja (Avtor), ID Vintar, Špela (Avtor)

	PDF - Predstavitvena datoteka, prenos (84,21 KB) MD5: 72D4D8ADB1C28D3DDEECD9AEC661BD12
	URL - Izvorni URL, za dostop obiščite https://centerslo.si/simpozij-obdobja/zborniki/obdobja-30/

Izvleček

V prispevku predstavljamo novo metodo luščenja definicij iz slovenskih specializiranih besedil, ki temelji na modelu za klasifikacijo definicij, naučenem z uporabo metod strojnega učenja iz primerov v slovenski Wikipediji. Prvi korak metode zajema luščenje kandidatov s pomočjo slovenskega semantičnega leksikona, avtomatskega razpoznavanja terminov ter leksikoskladenjskih vzorcev. V drugem koraku pa z uporabo naučenega klasifikacijskega modela izmed definicijskih kandidatov izberemo "prave" definicije. Iz korpusa s področja naravoslovja smo s to metodo izluščili več kot tisoč definicijskih kandidatov ter z uporabo naučenega modela dosegli do 70-odstotno klasifikacijsko točnost.

Jezik:	Slovenski jezik
Ključne besede:	korpusno jezikoslovje, slovenščina, luščenje definicij, luščenje informacij, računalniška obdelava naravnega jezika, strojno učenje, informacijsko poizvedovanje
Vrsta gradiva:	Članek v reviji
Tipologija:	1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija:	FF - Filozofska fakulteta
Leto izida:	2011
Št. strani:	Str. 145-150
PID:	20.500.12556/RUL-149215
UDK:	801.8=163.6:81'322.2:004.738.5
COBISS.SI-ID:	47262818
Datum objave v RUL:	05.09.2023
Število ogledov:	1378
Število prenosov:	159
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Meddisciplinarnost v slovenistiki
Uredniki:	Simona Kranjc
Kraj izida:	Ljubljana
Založnik:	Znanstvena založba Filozofske fakultete
Leto izida:	2011
ISBN:	978-961-237-461-7
COBISS.SI-ID:	258646784
Naslov zbirke:	Obdobja
Številčenje v zbirki:	30

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
This paper presents a new method for definition extraction from Slovene domain-specific corpora, based on a model for definition classification learned using machine-learning methods on examples from Slovene Wikipedia. In the first step we extract definition candidates using a Slovene semantic lexicon, automatic terminology recognition and lexico-syntactic patterns. Next, we use the learned classification model to select ŽtrueŽ definitions from the set of definition candidates. The method was tested on a natural science domain corpus from which we extracted more than a thousand definition candidates and achieved up to 70% classification accuracy with the learned classification model.
Ključne besede:	corpus linguistics, Slovene language, definition extraction, information extraction, natural language processing, machine learning, information retrieval

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj