Podrobno

Semi-supervised relation extraction corpus construction and models creation for under-resourced languages : a use case for Slovene
ID Knez, Timotej (Avtor), ID Štravs, Miha (Avtor), ID Žitnik, Slavko (Avtor)

.pdfPDF - Predstavitvena datoteka, prenos (765,58 KB)
MD5: 44ECF8BD6BA995E830FE04A4BDD35E6C
URLURL - Izvorni URL, za dostop obiščite https://www.mdpi.com/2078-2489/16/2/143 Povezava se odpre v novem oknu

Izvleček
The goal of relation extraction is to recognize head and tail entities in a document and determine a relation between them. While a lot of progress was made in solving automated relation extraction in widely used languages such as English, the use of these methods for under-resourced languages and domains is limited due to the lack of training data. In this work, we present a pipeline using distant supervision for constructing a relation extraction corpus in an arbitrary language. The corpus construction combines Wikipedia documents in the target language with relations in the WikiData knowledge graph. We demonstrate the process by constructing a new corpus for relation extraction in the Slovene language. Our corpus captures 20 unique relation types. The final corpus contains 811,032 relations annotated in 244,437 sentences. We use the corpus to train models using three architectures and evaluate them on the task of Slovene relation extraction. We achieve comparable performance to approaches on English data.

Jezik:Angleški jezik
Ključne besede:relation extraction, semi-supervised learning, Slovene language
Vrsta gradiva:Članek v reviji
Tipologija:1.01 - Izvirni znanstveni članek
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Status publikacije:Objavljeno
Različica publikacije:Objavljena publikacija
Leto izida:2025
Št. strani:Str. 1-17
Številčenje:Vol. 16, iss. 2, art. 143
PID:20.500.12556/RUL-171514 Povezava se odpre v novem oknu
UDK:004.65:81'322
ISSN pri članku:2078-2489
DOI:10.3390/info16020143 Povezava se odpre v novem oknu
COBISS.SI-ID:226450691 Povezava se odpre v novem oknu
Datum objave v RUL:27.08.2025
Število ogledov:180
Število prenosov:36
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Gradivo je del revije

Naslov:Information
Skrajšan naslov:Information
Založnik:MDPI
ISSN:2078-2489
COBISS.SI-ID:18497046 Povezava se odpre v novem oknu

Licence

Licenca:CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.

Sekundarni jezik

Jezik:Slovenski jezik
Ključne besede:ekstrakcija relacij, pol-nadzorovano učenje, slovenski jezik

Projekti

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:Young Researcher program
Naslov:Young Researcher program

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj