Podrobno

The ELEXIS-WSD Parallel Sense-Annotated Corpus and South Slavic languages : subcorpora for Croatian, Serbian, and Slovene
ID Čibej, Jaka (Avtor), ID Stanković, Ranka (Avtor), ID Ostroški Anić, Ana (Avtor), ID Krek, Simon (Avtor), ID Tiberius, Carole (Avtor)

.pdfPDF - Predstavitvena datoteka, prenos (6,10 MB)
MD5: 53D991DCBE3E77B469E82F6E02D49955
URLURL - Izvorni URL, za dostop obiščite https://doi.fil.bg.ac.rs/volume.php?lang=en&pt=eb_ser&issue=judig-2025-1&i=3 Povezava se odpre v novem oknu

Izvleček
The open-source ELEXIS-WSD Parallel Sense-Annotated Corpus was developed within the ELEXIS project and in version 1.1 contains 2,024 sentences for each of 10 languages: Bulgarian, Danish, English, Spanish, Estonian, Hungarian, Italian, Dutch, Portuguese, and Slovene. Within the sentences, each content word (noun, adjective, verb, and adverb) has been assigned a corresponding sense from one of the 10 open-access sense inventories containing definitions. Within the context of the UniDive COST Action (CA21167), the corpus is being extended with several new languages, including South Slavic languages. In the paper, we focus on three subcorpora: Croatian, Serbian, and Slovene. We briefly describe the structure and purpose of the ELEXIS-WSD, then continue by describing the process of extending the corpus, which involves several different stages from translation to tokenization, lemmatization, and POS-tagging, to named entity and multiword expression/named entity annotation, and finally, word-sense disambiguation. We discuss some of the challenges encountered so far in these different phases with the corpus itself on the one hand, and the sense inventories on the other. We also describe the plans for future work on additional annotation layers within UniDive in order to further improve the ELEXIS-WSD corpus as a high-quality richly annotated manually curated dataset that is useful for NLP tasks such as word-sense disambiguation.

Jezik:Angleški jezik
Ključne besede:semantic annotation, parallel corpus, senses, South Slavic languages, Slovene, Croatian, Serbian
Vrsta gradiva:Drugo
Tipologija:1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Status publikacije:Objavljeno
Različica publikacije:Objavljena publikacija
Leto izida:2025
Št. strani:Str. 45-59
PID:20.500.12556/RUL-176808 Povezava se odpre v novem oknu
UDK:81'322
DOI:10.18485/judig.2025.1.ch3 Povezava se odpre v novem oknu
COBISS.SI-ID:260569859 Povezava se odpre v novem oknu
Datum objave v RUL:11.12.2025
Število ogledov:58
Število prenosov:5
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Gradivo je del monografije

Naslov:Proceedings of the International Conference South Slavic Languages in the Digital Environment JuDig : Belgrade from 21 to 23 November 2024
Uredniki:Jasmina Moskovljević Popović, Ranka Stanković
Kraj izida:Belgrade
Založnik:University of Belgrade, Faculty of Philology
Leto izida:2025
ISBN:978-86-6153-791-2
COBISS.SI-ID:260545027 Povezava se odpre v novem oknu

Licence

Licenca:CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.

Sekundarni jezik

Jezik:Srbski jezik (cirilica)
Naslov:ELEXIS-WSD paralelni semantički anotirani korpus i južnoslovenski jezici : potkorpusi za hrvatski, srpski i slovenački
Izvleček:
Otvoreni paralelni semantički anotiran korpus ELEXIS-WSD razvijen je u okviru projekta ELEXIS i u verziji 1.1 sadrži 2.024 rečenice za svaki od 10 jezika: bugarski, danski, engleski, španski, estonski, mađarski, italijanski, holandski, portugalski i slovenački. U rečenicama, svakoj reči koja nose značenje (imenice, pridevi, glagoli i prilozi) dodeljeno je odgovarajuće značenje iz jednog od 10 otvorenih repozitorijuma značenja koji sadrže definicije. U kontekstu UniDive COST akcije (CA21167), korpus se proširuje sa nekoliko novih jezika, uključujući južnoslovenske jezike. U ovom radu fokusiramo se na tri potkorpusa: hrvatski, srpski i slovenački. Ukratko opisujemo strukturu i namenu ELEXIS-WSD korpusa, a zatim nastavljamo sa opisom procesa proširenja korpusa, koji uključuje nekoliko različitih faza – od prevođenja do tokenizacije, lematizacije i obeležavanja vrsta reči (POStagging), zatim anotacije imenovanih entiteta i polileksemskih izraza/imenovanih entiteta, i konačno, razrešavanja višeznačnosti reči. U radu razmatramo neke od izazova sa kojima smo se do sada susreli u različitim fazama, kako u pripremi korpusa, tako i u pripremi repozitorijuma značenja. Takođe opisujemo planove za budući rad na dodatnim slojevima anotacije u okviru UniDive projekta, sa ciljem daljeg poboljšanja ELEXIS-WSD korpusa kao visokokvalitetnog, bogato anotiranog i ručno verifikovanog skupa podataka koji je koristan za NLP zadatke kao što je razrešavanje višeznačnosti reči.

Ključne besede:semantično označevanje, vzporedni korpus, pomeni, južnoslovanski jeziki, slovenščina, hrvaščina, srbščina

Projekti

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0411-2019
Naslov:Jezikovni viri in tehnologije za slovenski jezik

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj