Podrobno

Towards better language representation in natural language processing : a multilingual dataset for text-level grammatical error correction
ID Masciolini, Arianna (Avtor), ID Caines, Andrew (Avtor), ID Arhar Holdt, Špela (Avtor), ID Žagar, Aleš (Avtor)

.pdfPDF - Predstavitvena datoteka, prenos (314,03 KB)
MD5: 778590BDBE1CB3567B806D001AD72624
URLURL - Izvorni URL, za dostop obiščite https://www.jbe-platform.com/content/journals/10.1075/ijlcr.24033.mas Povezava se odpre v novem oknu

Izvleček
This paper introduces MultiGEC, a dataset for multilingual Grammatical Error Correction (GEC) in twelve European languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Russian, Slovene, Swedish and Ukrainian. MultiGEC distinguishes itself from previous GEC datasets in that it covers several underrepresented languages, which we argue should be included in resources used to train models for Natural Language Processing tasks which, as GEC itself, have implications for Learner Corpus Research and Second Language Acquisition. Aside from multilingualism, the novelty of the MultiGEC dataset is that it consists of full texts — typically learner essays — rather than individual sentences, making it possible to train systems that take a broader context into account. The dataset was built for MultiGEC-2025, the first shared task in multilingual text-level GEC, but it remains accessible after its competitive phase, serving as a resource to train new error correction systems and perform cross-lingual GEC studies.

Jezik:Angleški jezik
Ključne besede:learner corpora, grammatical error correction, multilingual corpora, Matthew effect, MultiGEC shared task
Vrsta gradiva:Članek v reviji
Tipologija:1.01 - Izvirni znanstveni članek
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Status publikacije:Objavljeno
Različica publikacije:Objavljena publikacija
Leto izida:2025
Št. strani:Str. 309-335
Številčenje:Vol. 11, iss. 2
PID:20.500.12556/RUL-172814 Povezava se odpre v novem oknu
UDK:81'322.2:81'36
ISSN pri članku:2215-1478
DOI:10.1075/ijlcr.24033.mas Povezava se odpre v novem oknu
COBISS.SI-ID:234594051 Povezava se odpre v novem oknu
Datum objave v RUL:11.09.2025
Število ogledov:162
Število prenosov:68
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Gradivo je del revije

Naslov:International journal of learner corpus research
Založnik:J. Benjamins
ISSN:2215-1478
COBISS.SI-ID:522804761 Povezava se odpre v novem oknu

Licence

Licenca:CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.

Sekundarni jezik

Jezik:Slovenski jezik
Ključne besede:učni korpusi, popravljanje slovničnih napak, večjezični korpusi, Matejev učinek, skupna naloga MultiGEC

Projekti

Financer:Drugi - Drug financer ali več financerjev
Številka projekta:LM2023044
Naslov:Large Research, Development and Innovation Infrastructures

Financer:Drugi - Drug financer ali več financerjev
Številka projekta:518989-LLP-1-2011-1-DE-KA2-KA2MP

Financer:Drugi - Drug financer ali več financerjev
Naslov:The error corpora project

Financer:Drugi - Drug financer ali več financerjev
Številka projekta:3161
Naslov:Latent Aspects in L2 Acquisition (LAL2A)

Financer:Drugi - Drug financer ali več financerjev
Številka projekta:VPP-LETONIKA-2021/1-0006

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:J7-3159-2021
Naslov:Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0411-2019
Naslov:Jezikovni viri in tehnologije za slovenski jezik

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:GC-0002
Naslov:Veliki jezikovni modeli za digitalno humanistiko

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj