Podrobno

Leveraging a morphological lexicon for a semi-automatic approach to correcting lemmas and morphosyntactic tags
ID Čibej, Jaka (Avtor), ID Munda, Tina (Avtor)

.pdfPDF - Predstavitvena datoteka, prenos (534,13 KB)
MD5: B550E6028832B1B99D101556822FCCB9
URLURL - Izvorni URL, za dostop obiščite https://ojs.inz.si/pnz/article/view/4498 Povezava se odpre v novem oknu

Izvleček
In the paper, we present a new semi-automatic approach to correcting lemmas and morpho-syntactic tags. Unlike previous manual annotation approaches for Slovene corpora, the new method contains an additional step in which tokens and their automatically assigned lemmas and morphosyntactic tags are cross-referenced with the set of forms included in the Sloleks Morphological Lexicon of Slovene. Based on the comparison, each token is classified into one of several annotation scenarios. The new approach has noticeably reduced the time and resources invested into annotation by eliminating a large number of redundant tasks. The advantages of this method include the possibility of dividing annotation tasks into groups consisting of simi-lar annotation problems (e.g. disambiguation of grammatical homographs). With adequate data preparation, it also drastically reduces the necessity for annotators to be familiar with the extensive Multext-East morphosyntactic tag set for Slovene, a restriction that created a bottleneck in the annotation process in similar annotation campaigns. The method was tested during the annotation process for the ROG Training Corpus of Spoken Slovene. In addition, we also test the scenario classification algorithm on the SUK Training Corpus of Written Slovene, which was annotated using the traditional sentence-by-sentence, token-by-token approach. We present the results and argue that the method should be used in future annotation campaigns to save resources and improve overall annotation consistency, while also discussing some of the caveats and disadvantages of the proposed approach.

Jezik:Angleški jezik
Ključne besede:lemmatization, morphosyntactic tagging, training corpora, morphological lexicon, corpus annotation
Vrsta gradiva:Članek v reviji
Tipologija:1.01 - Izvirni znanstveni članek
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Status publikacije:Objavljeno
Različica publikacije:Objavljena publikacija
Leto izida:2025
Št. strani:Str. 135-159
Številčenje:Letn. 65, št. 3
PID:20.500.12556/RUL-177747 Povezava se odpre v novem oknu
UDK:81'322
ISSN pri članku:0353-0329
DOI:10.51663/pnz.65.3.06 Povezava se odpre v novem oknu
COBISS.SI-ID:263493891 Povezava se odpre v novem oknu
Datum objave v RUL:06.01.2026
Število ogledov:53
Število prenosov:10
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Gradivo je del revije

Naslov:Prispevki za novejšo zgodovino
Skrajšan naslov:Prisp. novejšo zgod.
Založnik:Inštitut za zgodovino delavskega gibanja, Inštitut za zgodovino delavskega gibanja, Inštitut za novejšo zgodovino
ISSN:0353-0329
COBISS.SI-ID:7530754 Povezava se odpre v novem oknu

Licence

Licenca:CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Uporaba oblikoslovnega leksikona pri polavtomatskem pristopu k popravljanju lem in oblikoskladenjskih oznak
Izvleček:
V prispevku smo zasnovali nov polavtomatski pristop k popravljanju lem in oblikoskladenjskih oznak, ki se od predhodnih ročnih pristopov razlikuje po dodatni fazi navzkrižne primerjave s Slovenskim oblikoslovnim leksikonom Sloleks. V tem koraku so pojavnice in njihove strojno pripisane oblikoskladenjske značilnosti ter leme razvrščene v označevalne scenarije, na podlagi katerih je delo mogoče razdeliti v ločene sklope. Na ta način potrebujemo precej manj časa za proučevanje označevalnih smernic po sistemu Multext-East za slovenščino, delitev na sklope podobnih nalog pa omogoča tudi, da različno izkušenih označevalcem dodelimo delo primerne težavnosti. Metodo smo preizkusili pri označevanju Učnega korpusa govorjene slovenščine ROG ter dodatno stestirali na Učnem korpusu pisne slovenščine SUK. Rezultati kažejo, da je novi pristop hitrejši in v primerjavi s predhodnimi metodami zmanjša časovni vložek s približno 500 ur na 105 ur dela (na primeru korpusa ROG), pri čemer je končni odstotek popravljenih lem in oblikoskladenjskih oznak primerljiv (4-5 % za oblikoskladenjske oznake ter 1,3 % za leme). Pri tem so problematične predvsem enakopisnice na eni strani (zlasti če še niso popisane v leksikonu) ter neleksikonske pojavnice na drugi. S posodabljanjem Slovenskega oblikoslovnega leksikona Sloleks bo metoda v prihodnje še zanesljivejša, v prihodnje pa lahko postopek še nadgradimo s proučevanjem posameznih mikronalog – opazujemo lahko, kako se strojno označevanje obnese pri določenih enakopisnicah, ter popišemo, katere so manj verjeten vir napak, kar lahko upoštevamo pri načrtovanju označevanja.

Ključne besede:lematizacija, oblikoskladenjsko označevanje, govorjena slovenščina, korpusi govorjene slovenščine, ročno označeni korpusi

Projekti

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:J7-4642-2022
Naslov:Temeljne raziskave za razvoj govornih virov in tehnologij za slovenščino

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:Z6-4617-2022
Naslov:Na drevesnici temelječ pristop k raziskavam govorjene slovenščine

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0411-2019
Naslov:Jezikovni viri in tehnologije za slovenski jezik

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj