Obvladovanje slovničnih napak v šolskih pisnih izdelkih z metodami za obdelavo naravnega jezika

MOKOTAR, ROK

Obvladovanje slovničnih napak v šolskih pisnih izdelkih z metodami za obdelavo naravnega jezika
ID MOKOTAR, ROK (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (6,04 MB)
MD5: E7DE76C5BDEAD49966434E1E4211F4F6

Abstract

V okviru diplomskega dela je predstavljen razvoj sistema za obvladovanje slovničnih napak, ki smo ga v grobem razdelili na tri podprobleme, in sicer na zaznavanje, prepoznavanje in popravljanje napak. Omenjene probleme smo rešili z uporabo velikih jezikovnih modelov arhitekture transformer, pri čemer smo za zaznavanje in prepoznavanje slovničnih napak uporabili model SloBERTa, slovensko različico modela BERT, za popravljanje slovničnih napak pa model SloT5, slovensko različico modela T5. Učenje in evalviranje modelov smo izvedli nad slovenskima korpusoma slovničnih popravkov Šolar in Lektor, uporabili pa smo tudi slovenski oblikoslovni leksikon Sloleks in označevalno orodje Classla-Stanza. S pomočjo več metrik smo ocenili delovanje modelov. Modela zaznavanja in prepoznavanja dosegata F-oceno 88 % in 14 %, model popravljanja pa GLEU oceno 50 %.

Language:	Slovenian
Keywords:	obvladovanje slovničnih napak, globoke nevronske mreže, arhitektura transformer, model SloBERTa, model SloT5, korpus Šolar, korpus Lektor, leksikon Sloleks, orodje Classla-Stanza
Work type:	Bachelor thesis/paper
Typology:	2.11 - Undergraduate Thesis
Organization:	FRI - Faculty of Computer and Information Science
Year:	2023
PID:	20.500.12556/RUL-144932
COBISS.SI-ID:	147366659
Publication date in RUL:	23.03.2023
Views:	794
Downloads:	151
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Grammar error handling in school written works using natural language processing
The thesis presents the development of a grammar error handling system, which was divided into three sub-problems: error detection, recognition, and correction. We addressed these problems using large language models based on the transformer architecture. Specifically, we used the SloBERTa model, the Slovenian version of the BERT model, to detect and recognize grammatical errors. Additionally, we used the SloT5 model, the Slovenian version of the T5 model, to correct grammatical errors. The models were trained and evaluated on the Slovene corpora of grammar corrections Šolar and Lektor. We also used the Slovene morphological lexicon Sloleks and the Classla-Stanza tagging tool. To evaluate the performance of the models, we used several metrics. The detection and recognition models achieved the F-score of 88% and 14%, respectively. The correction model achieved the GLEU score of 50%.
Keywords:	grammar error handling, deep neural networks, transformer architecture, SloBERTa model, SloT5 model, Šolar corpus, Lektor corpus, Sloleks lexicon, Classla-Stanza tool

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents