Mono- and cross-lingual evaluation of representation language models on less-resourced languages

Ulčar, Matej; Žagar, Aleš; Armendariz, Carlos S.; Repar, Andraž; Pollak, Senja; Purver, Matthew; Robnik Šikonja, Marko

Podrobno

Mono- and cross-lingual evaluation of representation language models on less-resourced languages
ID Ulčar, Matej (Avtor), ID Žagar, Aleš (Avtor), ID Armendariz, Carlos S. (Avtor), ID Repar, Andraž (Avtor), ID Pollak, Senja (Avtor), ID Purver, Matthew (Avtor), ID Robnik Šikonja, Marko (Avtor)

	PDF - Predstavitvena datoteka, prenos (2,51 MB) MD5: 959E090AF6BB03C8064D9ED465BAB5B6
	URL - Izvorni URL, za dostop obiščite https://www.sciencedirect.com/science/article/pii/S0885230825000774

Izvleček

The current dominance of large language models in natural language processing is based on their contextual awareness. For text classification, text representation models, such as ELMo, BERT, and BERT derivatives, are typically fine-tuned for a specific problem. Most existing work focuses on English; in contrast, we present a large-scale multilingual empirical comparison of several monolingual and multilingual ELMo and BERT models using 14 classification tasks in nine languages. The results show, that the choice of best model largely depends on the task and language used, especially in a cross-lingual setting. In monolingual settings, monolingual BERT models tend to perform the best among BERT models. Among ELMo models, the ones trained on large corpora dominate. Cross-lingual knowledge transfer is feasible on most tasks already in a zero-shot setting without losing much performance.

Jezik:	Angleški jezik
Ključne besede:	monolingual models, multilingual models, ELMo, BERT, corpus, cross-lingual datasets, language models, contextual embeddings, less-resourced languages, BERT, ELMo
Vrsta gradiva:	Članek v reviji
Tipologija:	1.01 - Izvirni znanstveni članek
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2026
Št. strani:	29 str.
Številčenje:	Vol. 95, art. 101852
PID:	20.500.12556/RUL-182550
UDK:	004.8
ISSN pri članku:	1095-8363
DOI:	10.1016/j.csl.2025.101852
COBISS.SI-ID:	241622275
Datum objave v RUL:	15.05.2026
Število ogledov:	24
Število prenosov:	12
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del revije

Naslov:	Computer speech & language
Skrajšan naslov:	Comput. speech lang.
Založnik:	Elsevier
ISSN:	1095-8363
COBISS.SI-ID:	203927043

Licence

Licenca:	CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:	To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.

Sekundarni jezik

Jezik:	Slovenski jezik
Ključne besede:	korpusi, večjezični veliki modeli

Projekti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P2-0103
Naslov:	Tehnologije znanja

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	L2-50070
Naslov:	Tehnike vektorskih vložitev za medijske aplikacije

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	J7-3159
Naslov:	Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	GC-0002
Naslov:	Veliki jezikovni modeli za digitalno humanistiko

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Naslov:	Adaptive Natural Language Processing with Large Language Models
Akronim:	PoVeJMo

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	BI-FR/23-24-PROTEUS-006
Naslov:	Čezjezikovne in čezdomenske metode za luščenje in poravnavo terminologije

Financer:	UKRI - UK Research and Innovation
Program financ.:	EPSRC
Številka projekta:	EP/S033564/1
Naslov:	Streamlining Social Decision Making for Improved Internet Standards

Financer:	UKRI - UK Research and Innovation
Program financ.:	EPSRC
Številka projekta:	EP/L01632X/1
Naslov:	EPSRC and AHRC Centre for Doctoral Training in Media and Arts Technology

Financer:	EC - European Commission
Program financ.:	H2020
Številka projekta:	825153
Naslov:	Cross-Lingual Embeddings for Less-Represented Languages in European News Media
Akronim:	EMBEDDIA

Financer:	EC - European Commission
Program financ.:	HE
Številka projekta:	101186647
Naslov:	Centre of Excellence in Artificial Intelligence for Digital Humanities
Akronim:	AI4DH

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj