Models for automatic morphological inflection of Serbian and Croatian based on the srLex and hrLex morphological lexicons

Čibej, Jaka

Podrobno

Models for automatic morphological inflection of Serbian and Croatian based on the srLex and hrLex morphological lexicons
ID Čibej, Jaka (Avtor)

	PDF - Predstavitvena datoteka, prenos (6,10 MB) MD5: 9D63F7558633FE83962C2DCBEAED36B8
	URL - Izvorni URL, za dostop obiščite https://doi.fil.bg.ac.rs/volume.php?pt=eb_ser&issue=judig-2025-1&i=2

Izvleček

Open-source machine-readable morphological lexicons are useful for morphosyntactic tagging of corpora and represent a crucial step toward compiling modern digital dictionary databases. In the paper, we present the first step toward extending the functionalities of Pregibalnik, a custom developed open-source tool for Slovene lexicon expansion, to cover Serbian and Croatian and help automatically expand the lexicons with new entries. We describe the process of extraction of morphological patterns from the hrLex and srLex inflectional lexicons of Croatian and Serbian, as well as a robust process of feature selection based on ending word parts. The features are used to develop a series of machine-learning models to predict morphological patterns for Croatian and Serbian lexemes, achieving an average F1-micro score of 0.85 (depending on lexeme type). This also helps identify potential inconsistencies within the current versions of the lexicons. The extracted patterns and models are available under a Creative Commons CC-BY 4.0 license.

Jezik:	Angleški jezik
Ključne besede:	lexicon, morphology, inflection, lexicon expansion, Croatian, Serbian
Vrsta gradiva:	Drugo
Tipologija:	1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2025
Št. strani:	Str. 29-43
PID:	20.500.12556/RUL-176809
UDK:	81'322
DOI:	10.18485/judig.2025.1.ch2
COBISS.SI-ID:	260580355
Datum objave v RUL:	11.12.2025
Število ogledov:	46
Število prenosov:	2
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Proceedings of the International Conference South Slavic Languages in the Digital Environment JuDig : Belgrade from 21 to 23 November 2024
Uredniki:	Jasmina Moskovljević Popović, Ranka Stanković
Kraj izida:	Belgrade
Založnik:	University of Belgrade, Faculty of Philology
Leto izida:	2025
ISBN:	978-86-6153-791-2
COBISS.SI-ID:	260545027

Licence

Licenca:	CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:	To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.

Sekundarni jezik

Izvleček:
Jezik:	Srbski jezik (cirilica)
Naslov:	Modeli za automatsku morfološku fleksiju srpskog i hrvatskog jezika na osnovu morfoloških leksikona srLex i hrLex
Mašinski čitljivi morfološki leksikoni otvorenog koda korisni su za morfosintaksičko označavanje korpusa i predstavljaju ključni korak ka sastavljanju savremenih baza podataka digitalnih rečnika. U radu predstavljamo prvi korak ka proširenju funkcionalnosti Pregibalnika, prilagođenog alata otvorenog koda za proširenje slovenačkog leksikona, tako da pokrije srpski i hrvatski jezik i pomoći će automatskom proširenju leksikona novim unosima. Opisujemo proces izdvajanja morfoloških obrazaca iz hrLex i srLex morfoloških leksikona hrvatskog i srpskog jezika, kao i robustan proces selekcije atributa na osnovu završnih delova reči. Atributi se koriste za razvoj serije modela mašinskog učenja za predviđanje morfoloških obrazaca za hrvatske i srpske lekseme, postižući prosečan F1-mikro rezultat od 0,85 (u zavisnosti od tipa lekseme). Ovo takođe pomaže da se identifikuju potencijalne nedoslednosti unutar trenutnih verzija leksikona. Izvučeni obrasci i modeli dostupni su pod licencom Creative Commons CC-BY 4.0.
Ključne besede:	leksikon, oblikoslovje, pregibanje, širjenje leksikona, hrvaščina, srbščina

Projekti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411-2019
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj