Nenadzorovano učenje za avtomatsko poenostavljanje besedil

Gorenc, Sabina

Repository of the University of Ljubljana

Details

Nenadzorovano učenje za avtomatsko poenostavljanje besedil
ID Gorenc, Sabina (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

, ID Stabej, Marko (Comentor)

PDF - Presentation file, Download (1,24 MB)
MD5: AF96A354FFE6B5523D56E18C22878476

Abstract

Za povečanje dostopnosti in raznovrstnosti lahkega branja v slovenščini, ki vsebuje jezikovno prilagojena besedila, smo izdelali prototip sistema, ki avtomatsko poenostavlja besedila. To je prvi sistem za samodejno pretvarjanje slovenskih povedi in besedil v enostavnejšo obliko. Pripravili smo podatkovno množico za slovenski jezik s poravnanimi enostavnimi in kompleksnimi stavki, ki bo uporabna za nadaljnje raziskave. Uporabili smo model T5 za slovenski jezik, ki je naučen na drugih nalogah s področja naravne obdelave jezika. Model uporablja strojno učenje s prenosom znanja na globokih nevronskih mrežah z arhitekturo kodirnik-dekodirnik. Za iskanje optimalnih vrednosti hiperparametrov in evalvacijo uspešnosti sistema smo uporabili avtomatske mere ROUGE in BERTScore, ki so dokaj visoke in kažejo na uspešnost sistema. Sistem generira enostavčne ali enostavne večstavčne povedi s preprostimi priredji in podredji in ne uporablja trpnika ali posebnih simbolov. S stališča skladenjske preprostosti je sistem uspešen, bolj podrobno pa smo njegovo uspešnost ocenili še s pomočjo človeške evalvacije z uporabo vprašalnika, ki bi se ga lahko uporabilo za preverjanje razumljivosti in smiselnosti avtomatsko zgeneriranih stavkov tudi v nadaljnjih študijah. Z vprašalnikom smo ugotovili, da model ni preveč uspešen pri tvorjenju smiselnih in razumljivih odstavkov. Večina ocenjevalcev je menila, da so skoraj ali čisto nerazumljivi. Raziskovali smo še kriterije razumljivosti za avtomatsko generirana besedila in ugotovili, da so pomembni kriteriji razumljivosti jedrnatost, jezikovna pravilnost, leksikalna preprostost, skladenjska preprostost, koherenca in povzemalna ustreznost. Določitev kriterijev razumljivosti za avtomatsko generirana besedila je pomemben doprinos k nadaljnjemu razvoju in evalvaciji modelov avtomatskega poenostavljanja besedil, saj omogočajo objektivno oceno razumljivosti takih besedil. Naš sistem se je najboljše odrezal po kriterijih skladenjske in leksikalne preprostosti, najslabše pa v povzemalni ustreznosti, koherenci in jedrnatosti. Sistem je delno uporaben kot pomoč poenostavljalcem, potencialno pa bi se ga dalo izkoristiti v kombinaciji s povzemanjem za zagotavljanje preprostejšega besedišča in preproste skladenjske strukture.

Language:	Slovenian
Keywords:	obdelava naravnega jezika
Work type:	Master's thesis/paper
Typology:	2.09 - Master's Thesis
Organization:	PEF - Faculty of Education
Year:	2022
PID:	20.500.12556/RUL-140753
COBISS.SI-ID:	121697027
Publication date in RUL:	27.09.2022
Views:	935
Downloads:	193
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Unsupervised learning for automatic text simplification
In order to increase the accessibility and variety of easy reading in Slovenian, which contains stylistic and language adaptations, we created a prototype of a system that automatically simplifies texts. This is the first system for automatically converting Slovenian sentences and texts into a simpler form. We have prepared a dataset for the Slovenian language that contains aligned simple and complex sentences, which can be used for further development of models for simplifying texts in Slovenian. We used the slovene T5 model, which is pretrained on other tasks. Namely, the model uses machine learning with knowledge transfer using deep neural networks with an encoder-decoder architecture. To find good values of hyperparameters and evaluate the performance of the system, we used automatic measures ROUGE and BERTScore, which are high and indicate a good performance of the system. The system generates single-clause or simple multi-clause sentences and does not use adverbs or special symbols. From the syntactic simplicity point of view, the system is successful, but we assessed its success in more detail with the help of human evaluation using a questionnaire that could be used to check the comprehensibility and meaningfulness of automatically generated sentences in further studies. With the questionnaire, we found that the model was not successful in generating comprehensible paragraphs. Most reviewers found them to be almost or completely unintelligible. We also investigated the comprehensibility criteria for automatically generated texts and found that the important comprehensibility criteria are conciseness, linguistic correctness, lexical simplicity, syntactic simplicity, coherence and summary relevance. Our system performed the best in syntactic simplicity and lexical simplicity, and the worst in summary relevance, coherence and conciseness. The system is partly useful as an aid to simplifiers, and could potentially be used in combination with summarization to provide simpler vocabulary and simple syntactic structure.
Keywords:	natural language processing

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents