Summarization of web comments

Milačić, Katarina

Repository of the University of Ljubljana

Details

Summarization of web comments
ID Milačić, Katarina (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (1,02 MB)
MD5: 46466EE5E5F1EFD5EBD2C59B63569BD6

Abstract

Text summarization is a process of reducing a given text to a concise and fluent shorter version. With rapidly increasing amounts of textual data, automatic text summarization could save time and reduce work. This task is non-trivial since it requires knowledge of vocabulary, semantics and cognitive processing. Pre-trained language models such as BERT contain extensive language knowledge. They can be used to transfer models trained in resource-rich languages to low-resource languages. In this work, we leverage knowledge of two BERT models: CroSloEngual BERT and multilingual BERT for transfer learning. We test extractive and abstractive summarization approaches that extend BERT architecture. We test the proposed approach on dataset of Croatian comments without summaries. We evaluate models using ROUGE and BERTScore and perform human evaluation. Trained abstractive models are able to detect keywords and a general topic, but struggle with the languages not present in the training data and produce false information. Extractive summarization models are reliable and have a good coverage of topics and contain important sentences.

Language:	English
Keywords:	word embeddings, cross-lingual embeddings, low-resource languages, abstractive summarization, extractive summarization, deep neural networks, language models, transfer learning
Work type:	Master's thesis/paper
Typology:	2.09 - Master's Thesis
Organization:	FRI - Faculty of Computer and Information Science
Year:	2020
PID:	20.500.12556/RUL-121983
COBISS.SI-ID:	40174851
Publication date in RUL:	13.11.2020
Views:	1431
Downloads:	230
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	Slovenian
Title:	Povzemanje spletnih komentarjev
Povzemanje besedila je postopek krčenja besedila na tekočo krajšo različico. Ker se obseg besedilnih podatkov hitro povečuje, lahko samodejno povzemanje besedil uporabnikom prihrani čas in zmanjša kognitivno obremenitev. Naloga zahteva poznavanje besedišča in semantike. Vnaprej naučeni veliki jezikovni modeli, kot je BERT, vsebujejo obsežno znanje jezika. Uporabljajo se lahko za prenos znanja iz modelov, naučenih na jezikih, bogatih z viri, v jezike z malo viri. V tem delu za medjezikovni prenos izkoriščamo znanje dveh modelov tipa BERT: trojezičnega hrvaško-slovensko-angleškega in večjezičnega modela. Preizkušamo ekstraktivne in abstraktivne pristope povzemanja, ki razširjajo arhitekturo BERT. Modele preizkusimo na podatkovnih množicah hrvaških komentarjev, ki nimajo povzetkov. Rezultate ocenjujemo z uporabo metrik ROUGE in BERTScore ter s človeškim vrednotenjem. Naučeni abstraktivni modeli ustvarjajo dobre povzetke v jezikih, v katerih so naučeni. V jezikih, ki niso bili vključeni v učno množico so manj uspešni, zaznajo ključne besede in splošno tematiko, ampak vključujejo pa tudi napačne podatke. Modeli ekstraktivnega povzemanja so zanesljivi, dobro pokrivajo tematike ter vsebujejo dejansko pomembne stavke.
Keywords:	vložitve besed, medjezikovne vložitve, jeziki z malo viri, abstraktivno povzemanje, ekstraktivno povzemanje, globoke nevronske mreže, jezikovni modeli, učenje s prenosom znanja

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents