izpis_h1_title_alt

Cross-lingual transfer of POS tagger into a low-resource language
ID Stojanoska, Sanja (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Ljubešić, Nikola (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (374,58 KB)
MD5: 8B7A7E917C981E70501B88354CC9D1AE

Izvleček
With the continuous growth of online textual content, machine learning is the only feasible approach for implementing advanced systems for language processing. Although many natural language processing (NLP) applications exist, most of them are anglocentric and low-resourced languages are left behind. We apply a cross-lingual transfer approach from several languages to overcome this limitation. Part-of-speech tagging (POS), a fundamental text processing task, is a prerequisite for a variety of NLP problems. To implement a POS-tagger in the low-resource Macedonian language, we use pretrained multilingual models along with annotated data in Serbian, Croatian and Bulgarian. We show that multilingual models fine-tuned with a set of languages similar to the target language achieve good performance in solving the POS-tagging task.

Jezik:Angleški jezik
Ključne besede:cross-lingual transfer, part-of-speech tagging, multilingual language model, low-resource language, Macedonian language
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2021
PID:20.500.12556/RUL-130311 Povezava se odpre v novem oknu
COBISS.SI-ID:77541891 Povezava se odpre v novem oknu
Datum objave v RUL:13.09.2021
Število ogledov:800
Število prenosov:140
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Medjezikovni prenos oblikoskladenjskega označevalnika v jezik z malo viri
Izvleček:
Zaradi nenehne rasti količine spletnih besedil je strojno učenje edini izvedljiv pristop za izvajanje naprednih jezikovnih obdelav. Čeprav obstajajo števline aplikacije za obdelavo naravnega jezika, je večina anglocentričnih in jeziki z malo viri so zanemarjeni. V tem delu uporabljamo medjezikovni prenos iz več jezikov v jezik z malo viri. Oblikoskladenjski označevalnik je ena od temeljnih nalog obdelave besedil in je predpogoj za različne jezikovne naloge. Za implementacijo oblikoskladenjskega označevalnika za makedonski jezik, ki ima na voljo le malo virov, uporabljamo večjezikovne modele in označene podatke iz srbskega, hrvaškega in bolgarskega jezika. Pokazali smo, da večjezikovni modeli, prilagojeni z jeziki podobnimi ciljnemu jeziku, dosegajo dobre rezultate pri oblikoskladenjskem označevanju v makedonščini.

Ključne besede:medjezikovni prenos, oblikoskladenjski označevalnik, večjezikovni model, jezik z malo viri, makedonski jezik

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj