Cross-lingual transfer of POS tagger into a low-resource language

Stojanoska, Sanja

Cross-lingual transfer of POS tagger into a low-resource language
ID Stojanoska, Sanja (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

, ID Ljubešić, Nikola (Komentor)

PDF - Predstavitvena datoteka, prenos (374,58 KB)
MD5: 8B7A7E917C981E70501B88354CC9D1AE

Izvleček

With the continuous growth of online textual content, machine learning is the only feasible approach for implementing advanced systems for language processing. Although many natural language processing (NLP) applications exist, most of them are anglocentric and low-resourced languages are left behind. We apply a cross-lingual transfer approach from several languages to overcome this limitation. Part-of-speech tagging (POS), a fundamental text processing task, is a prerequisite for a variety of NLP problems. To implement a POS-tagger in the low-resource Macedonian language, we use pretrained multilingual models along with annotated data in Serbian, Croatian and Bulgarian. We show that multilingual models fine-tuned with a set of languages similar to the target language achieve good performance in solving the POS-tagging task.

Jezik:	Angleški jezik
Ključne besede:	cross-lingual transfer, part-of-speech tagging, multilingual language model, low-resource language, Macedonian language
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2021
PID:	20.500.12556/RUL-130311
COBISS.SI-ID:	77541891
Datum objave v RUL:	13.09.2021
Število ogledov:	800
Število prenosov:	140
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Medjezikovni prenos oblikoskladenjskega označevalnika v jezik z malo viri
Zaradi nenehne rasti količine spletnih besedil je strojno učenje edini izvedljiv pristop za izvajanje naprednih jezikovnih obdelav. Čeprav obstajajo števline aplikacije za obdelavo naravnega jezika, je večina anglocentričnih in jeziki z malo viri so zanemarjeni. V tem delu uporabljamo medjezikovni prenos iz več jezikov v jezik z malo viri. Oblikoskladenjski označevalnik je ena od temeljnih nalog obdelave besedil in je predpogoj za različne jezikovne naloge. Za implementacijo oblikoskladenjskega označevalnika za makedonski jezik, ki ima na voljo le malo virov, uporabljamo večjezikovne modele in označene podatke iz srbskega, hrvaškega in bolgarskega jezika. Pokazali smo, da večjezikovni modeli, prilagojeni z jeziki podobnimi ciljnemu jeziku, dosegajo dobre rezultate pri oblikoskladenjskem označevanju v makedonščini.
Ključne besede:	medjezikovni prenos, oblikoskladenjski označevalnik, večjezikovni model, jezik z malo viri, makedonski jezik

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj