izpis_h1_title_alt

Medjezikovno povzemanje besedil
ID Pečovnik, Žan (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (557,11 KB)
MD5: 5FA50AC6990083898213A97CA94F7EB0

Izvleček
Medjezikovno povzemanje besedil je proces generiranja povzetka besedila v drugem jeziku in predstavlja eno izmed manj raziskanih področij obdelave naravnega jezika, saj je večina raziskav osredotočenih zgolj na angleški jezik. Razvili smo tri modele, zmožne direktnega povzemanja iz slovenskega v angleški jezik, ki temeljijo na vnaprej naučenih modelih LongT5, PEGASUS-X in BigBird. Za učenje smo uporabili podatkovno množico KAS 2.0, ki vsebuje 52351 slovenskih akademskih del in pripadajočih angleških povzetkov. Naredili smo več eksperimentov, kjer smo za prilagajanje modelov uporabili različne deleže učne množice. Modele smo kvantitativno evalvirali z metrikama ROUGE-L in BLEURT ter ugotovili, da se je najbolje izkazal model LongT5, zelo se mu je približal še model PEGASUS-X. Model BigBird je bil pri metriki BLEURT slabši za približno 8%, medtem ko je bil pri drugih metrikah primerljiv z ostalima modeloma. Ročno smo kvalitativno evalvirali 30 generiranih povzetkov za vsak model in jih klasificirali kot dobre oz. slabe. Model LongT5 je generiral tri dobre povzetke, PEGASUS-X enega, BigBird pa nobenega.

Jezik:Slovenski jezik
Ključne besede:medjezikovno povzemanje besedil, obdelava naravnega jezika, arhitektura transformer, vnaprej naučeni jezikovni modeli, model LongT5, model PEGASUS-X, model BigBird, metrika BLEURT, metrika ROUGE-L
Vrsta gradiva:Magistrsko delo/naloga
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2024
PID:20.500.12556/RUL-164918 Povezava se odpre v novem oknu
Datum objave v RUL:15.11.2024
Število ogledov:44
Število prenosov:6
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Cross-lingual text summarization
Izvleček:
Cross-lingual text summarization is the process of generating a summary of a text in a foreign language and is a less-researched area of natural language processing, since the majority of the research focuses only on the English language. We developed three different models capable of direct summarization from Slovene to English, based on pre-trained models LongT5, PEGASUS-X and BigBird. For training we used the KAS 2.0 dataset, which contains 52351 Slovene academic works and their corresponding English summaries. We conducted multiple experiments with fine-tuning the models using different portions of the training dataset. The models were quantitatively evaluated using the ROUGE-L and BLEURT metrics, and the LongT5 model performed best, closely followed by the PEGASUS-X model. The BigBird model performed approximately 8% worse according to the BLEURT metric, while it was comparable to the other models on other metrics. We manually qualitatively evaluated 30 generated summaries for each model and classified them as good or bad. The LongT5 model generated three good summaries, PEGASUS-X one, and BigBird none.

Ključne besede:cross-lingual text summarization, natural language processing, transformer architecture, pre-trained language models, LongT5 model, PEGASUS-X model, BigBird model, BLEURT metric, ROUGE-L metric

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj