Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Napredno
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Mono- and cross-lingual evaluation of representation language models on less-resourced languages
ID
Ulčar, Matej
(
Avtor
),
ID
Žagar, Aleš
(
Avtor
),
ID
Armendariz, Carlos S.
(
Avtor
),
ID
Repar, Andraž
(
Avtor
),
ID
Pollak, Senja
(
Avtor
),
ID
Purver, Matthew
(
Avtor
),
ID
Robnik Šikonja, Marko
(
Avtor
)
PDF - Predstavitvena datoteka,
prenos
(2,51 MB)
MD5: 959E090AF6BB03C8064D9ED465BAB5B6
URL - Izvorni URL, za dostop obiščite
https://www.sciencedirect.com/science/article/pii/S0885230825000774
Galerija slik
Izvleček
The current dominance of large language models in natural language processing is based on their contextual awareness. For text classification, text representation models, such as ELMo, BERT, and BERT derivatives, are typically fine-tuned for a specific problem. Most existing work focuses on English; in contrast, we present a large-scale multilingual empirical comparison of several monolingual and multilingual ELMo and BERT models using 14 classification tasks in nine languages. The results show, that the choice of best model largely depends on the task and language used, especially in a cross-lingual setting. In monolingual settings, monolingual BERT models tend to perform the best among BERT models. Among ELMo models, the ones trained on large corpora dominate. Cross-lingual knowledge transfer is feasible on most tasks already in a zero-shot setting without losing much performance.
Jezik:
Angleški jezik
Ključne besede:
monolingual models
,
multilingual models
,
ELMo
,
BERT
,
corpus
,
cross-lingual datasets
,
language models
,
contextual embeddings
,
less-resourced languages
,
BERT
,
ELMo
Vrsta gradiva:
Članek v reviji
Tipologija:
1.01 - Izvirni znanstveni članek
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Status publikacije:
Objavljeno
Različica publikacije:
Objavljena publikacija
Leto izida:
2026
Št. strani:
29 str.
Številčenje:
Vol. 95, art. 101852
PID:
20.500.12556/RUL-182550
UDK:
004.8
ISSN pri članku:
1095-8363
DOI:
10.1016/j.csl.2025.101852
COBISS.SI-ID:
241622275
Datum objave v RUL:
15.05.2026
Število ogledov:
24
Število prenosov:
12
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
Kopiraj citat
Objavi na:
Gradivo je del revije
Naslov:
Computer speech & language
Skrajšan naslov:
Comput. speech lang.
Založnik:
Elsevier
ISSN:
1095-8363
COBISS.SI-ID:
203927043
Licence
Licenca:
CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:
http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:
To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.
Sekundarni jezik
Jezik:
Slovenski jezik
Ključne besede:
korpusi
,
večjezični veliki modeli
Projekti
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
P6-0411
Naslov:
Jezikovni viri in tehnologije za slovenski jezik
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
P2-0103
Naslov:
Tehnologije znanja
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
L2-50070
Naslov:
Tehnike vektorskih vložitev za medijske aplikacije
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
J7-3159
Naslov:
Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
GC-0002
Naslov:
Veliki jezikovni modeli za digitalno humanistiko
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Naslov:
Adaptive Natural Language Processing with Large Language Models
Akronim:
PoVeJMo
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
BI-FR/23-24-PROTEUS-006
Naslov:
Čezjezikovne in čezdomenske metode za luščenje in poravnavo terminologije
Financer:
UKRI - UK Research and Innovation
Program financ.:
EPSRC
Številka projekta:
EP/S033564/1
Naslov:
Streamlining Social Decision Making for Improved Internet Standards
Financer:
UKRI - UK Research and Innovation
Program financ.:
EPSRC
Številka projekta:
EP/L01632X/1
Naslov:
EPSRC and AHRC Centre for Doctoral Training in Media and Arts Technology
Financer:
EC - European Commission
Program financ.:
H2020
Številka projekta:
825153
Naslov:
Cross-Lingual Embeddings for Less-Represented Languages in European News Media
Akronim:
EMBEDDIA
Financer:
EC - European Commission
Program financ.:
HE
Številka projekta:
101186647
Naslov:
Centre of Excellence in Artificial Intelligence for Digital Humanities
Akronim:
AI4DH
Podobna dela
Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:
Nazaj