Details

Samodejno luščenje definicij iz specializiranih besedil
ID Fišer, Darja (Author), ID Pollak, Senja (Author), ID Vintar, Špela (Author)

.pdfPDF - Presentation file, Download (84,21 KB)
MD5: 72D4D8ADB1C28D3DDEECD9AEC661BD12
URLURL - Source URL, Visit https://centerslo.si/simpozij-obdobja/zborniki/obdobja-30/ This link opens in a new window

Abstract
V prispevku predstavljamo novo metodo luščenja definicij iz slovenskih specializiranih besedil, ki temelji na modelu za klasifikacijo definicij, naučenem z uporabo metod strojnega učenja iz primerov v slovenski Wikipediji. Prvi korak metode zajema luščenje kandidatov s pomočjo slovenskega semantičnega leksikona, avtomatskega razpoznavanja terminov ter leksikoskladenjskih vzorcev. V drugem koraku pa z uporabo naučenega klasifikacijskega modela izmed definicijskih kandidatov izberemo "prave" definicije. Iz korpusa s področja naravoslovja smo s to metodo izluščili več kot tisoč definicijskih kandidatov ter z uporabo naučenega modela dosegli do 70-odstotno klasifikacijsko točnost.

Language:Slovenian
Keywords:korpusno jezikoslovje, slovenščina, luščenje definicij, luščenje informacij, računalniška obdelava naravnega jezika, strojno učenje, informacijsko poizvedovanje
Work type:Article
Typology:1.16 - Independent Scientific Component Part or a Chapter in a Monograph
Organization:FF - Faculty of Arts
Year:2011
Number of pages:Str. 145-150
PID:20.500.12556/RUL-149215 This link opens in a new window
UDC:801.8=163.6:81'322.2:004.738.5
COBISS.SI-ID:47262818 This link opens in a new window
Publication date in RUL:05.09.2023
Views:798
Downloads:44
Metadata:XML DC-XML DC-RDF
:
FIŠER, Darja, POLLAK, Senja and VINTAR, Špela, 2011, Samodejno luščenje definicij iz specializiranih besedil. In : Meddisciplinarnost v slovenistiki [online]. Ljubljana. p. 145–150. P. 145–150. [Accessed 11 April 2025]. Retrieved from: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=eng&id=149215
Copy citation
Share:Bookmark and Share

Record is a part of a monograph

Title:Meddisciplinarnost v slovenistiki
Editors:Simona Kranjc
Place of publishing:Ljubljana
Publisher:Znanstvena založba Filozofske fakultete
Year:2011
ISBN:978-961-237-461-7
COBISS.SI-ID:258646784 This link opens in a new window
Collection title:Obdobja
Collection numbering:30

Secondary language

Language:English
Abstract:
This paper presents a new method for definition extraction from Slovene domain-specific corpora, based on a model for definition classification learned using machine-learning methods on examples from Slovene Wikipedia. In the first step we extract definition candidates using a Slovene semantic lexicon, automatic terminology recognition and lexico-syntactic patterns. Next, we use the learned classification model to select ŽtrueŽ definitions from the set of definition candidates. The method was tested on a natural science domain corpus from which we extracted more than a thousand definition candidates and achieved up to 70% classification accuracy with the learned classification model.

Keywords:corpus linguistics, Slovene language, definition extraction, information extraction, natural language processing, machine learning, information retrieval

Similar documents

Similar works from RUL:Searching for similar works...Please wait....
Similar works from other Slovenian collections:

Back