Predlogi jezikovnih popravkov v slovenščini z modelom SloBERTa

PETRIČ, TIMOTEJ

Predlogi jezikovnih popravkov v slovenščini z modelom SloBERTa
ID PETRIČ, TIMOTEJ (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,89 MB)
MD5: 5327A43D5304C5DA0AA3731546ACFBAA

Izvleček

S pomočjo jezikovnega modela tipa BERT, naučenega na slovenskem jeziku, smo razvili metode za predlaganje popravkov slovničnih napak. Za osnovni model s semantičnim znanjem o slovenskem jeziku smo uporabili jezikovni model SloBERTa. Uporabili smo pripomočke za vrednotenje ter spreminjanje oblik besed v vhodnih povedih. Osredotočili smo se na popravljanje sklona tožilnik-rodilnik in števila množina-dvojina. Predlagane popravke smo ovrednotili s pomočjo lektoriranega in označenega korpusa s slovenskimi besedili. Program ob nastavitvi, ko hkrati popravlja obe napaki, doseže F-oceno med 95% in 96%. Pravilno popravi od 92% do 95% napačno nastavljenih besed - odvisno od števila nastavljenih napačnih besed v posamezni povedi.

Jezik:	Slovenski jezik
Ključne besede:	popravljanje slovničnih napak, model SloBERTa, Sloleks, Classla, Lektor
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2022
PID:	20.500.12556/RUL-139688
COBISS.SI-ID:	121821187
Datum objave v RUL:	06.09.2022
Število ogledov:	1618
Število prenosov:	168
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Proposing Slovene grammar corrections using SloBERTa model
Using a BERT-type language model, pre-trained on the Slovenian language, we have developed methods for proposing corrections of gramatical errors. For the basic model with semantic knowledge of the Slovenian language, we use the SloBERTa language model. We have used tools for evaluating and changing of words forms. In particular, we suggest the corrections of words with case accusative-genitive and number plural-dual. We evaluated the proposed corrections with the help of a proofread and annotated corpus of Slovenian texts. The program achieves an F-score between 95% and 96% when correcting both types of errors at the same time. Depending on the number of misspelled words in the sentence, it correctly predicts corrections of 92% to 95% of misspelled words.
Ključne besede:	correction of grammatical errors, model SloBERTa, Sloleks, Classla, corpus Lektor

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj