Predlogi jezikovnih popravkov v slovenščini z modelom SloBERTa

PETRIČ, TIMOTEJ

Predlogi jezikovnih popravkov v slovenščini z modelom SloBERTa
ID PETRIČ, TIMOTEJ (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (1,89 MB)
MD5: 5327A43D5304C5DA0AA3731546ACFBAA

Abstract

S pomočjo jezikovnega modela tipa BERT, naučenega na slovenskem jeziku, smo razvili metode za predlaganje popravkov slovničnih napak. Za osnovni model s semantičnim znanjem o slovenskem jeziku smo uporabili jezikovni model SloBERTa. Uporabili smo pripomočke za vrednotenje ter spreminjanje oblik besed v vhodnih povedih. Osredotočili smo se na popravljanje sklona tožilnik-rodilnik in števila množina-dvojina. Predlagane popravke smo ovrednotili s pomočjo lektoriranega in označenega korpusa s slovenskimi besedili. Program ob nastavitvi, ko hkrati popravlja obe napaki, doseže F-oceno med 95% in 96%. Pravilno popravi od 92% do 95% napačno nastavljenih besed - odvisno od števila nastavljenih napačnih besed v posamezni povedi.

Language:	Slovenian
Keywords:	popravljanje slovničnih napak, model SloBERTa, Sloleks, Classla, Lektor
Work type:	Bachelor thesis/paper
Typology:	2.11 - Undergraduate Thesis
Organization:	FRI - Faculty of Computer and Information Science
Year:	2022
PID:	20.500.12556/RUL-139688
COBISS.SI-ID:	121821187
Publication date in RUL:	06.09.2022
Views:	1615
Downloads:	168
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Proposing Slovene grammar corrections using SloBERTa model
Using a BERT-type language model, pre-trained on the Slovenian language, we have developed methods for proposing corrections of gramatical errors. For the basic model with semantic knowledge of the Slovenian language, we use the SloBERTa language model. We have used tools for evaluating and changing of words forms. In particular, we suggest the corrections of words with case accusative-genitive and number plural-dual. We evaluated the proposed corrections with the help of a proofread and annotated corpus of Slovenian texts. The program achieves an F-score between 95% and 96% when correcting both types of errors at the same time. Depending on the number of misspelled words in the sentence, it correctly predicts corrections of 92% to 95% of misspelled words.
Keywords:	correction of grammatical errors, model SloBERTa, Sloleks, Classla, corpus Lektor

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents