Summarization of web comments

Milačić, Katarina

Podrobno

Summarization of web comments
ID Milačić, Katarina (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,02 MB)
MD5: 46466EE5E5F1EFD5EBD2C59B63569BD6

Izvleček

Text summarization is a process of reducing a given text to a concise and fluent shorter version. With rapidly increasing amounts of textual data, automatic text summarization could save time and reduce work. This task is non-trivial since it requires knowledge of vocabulary, semantics and cognitive processing. Pre-trained language models such as BERT contain extensive language knowledge. They can be used to transfer models trained in resource-rich languages to low-resource languages. In this work, we leverage knowledge of two BERT models: CroSloEngual BERT and multilingual BERT for transfer learning. We test extractive and abstractive summarization approaches that extend BERT architecture. We test the proposed approach on dataset of Croatian comments without summaries. We evaluate models using ROUGE and BERTScore and perform human evaluation. Trained abstractive models are able to detect keywords and a general topic, but struggle with the languages not present in the training data and produce false information. Extractive summarization models are reliable and have a good coverage of topics and contain important sentences.

Jezik:	Angleški jezik
Ključne besede:	word embeddings, cross-lingual embeddings, low-resource languages, abstractive summarization, extractive summarization, deep neural networks, language models, transfer learning
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2020
PID:	20.500.12556/RUL-121983
COBISS.SI-ID:	40174851
Datum objave v RUL:	13.11.2020
Število ogledov:	2056
Število prenosov:	299
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Povzemanje spletnih komentarjev
Povzemanje besedila je postopek krčenja besedila na tekočo krajšo različico. Ker se obseg besedilnih podatkov hitro povečuje, lahko samodejno povzemanje besedil uporabnikom prihrani čas in zmanjša kognitivno obremenitev. Naloga zahteva poznavanje besedišča in semantike. Vnaprej naučeni veliki jezikovni modeli, kot je BERT, vsebujejo obsežno znanje jezika. Uporabljajo se lahko za prenos znanja iz modelov, naučenih na jezikih, bogatih z viri, v jezike z malo viri. V tem delu za medjezikovni prenos izkoriščamo znanje dveh modelov tipa BERT: trojezičnega hrvaško-slovensko-angleškega in večjezičnega modela. Preizkušamo ekstraktivne in abstraktivne pristope povzemanja, ki razširjajo arhitekturo BERT. Modele preizkusimo na podatkovnih množicah hrvaških komentarjev, ki nimajo povzetkov. Rezultate ocenjujemo z uporabo metrik ROUGE in BERTScore ter s človeškim vrednotenjem. Naučeni abstraktivni modeli ustvarjajo dobre povzetke v jezikih, v katerih so naučeni. V jezikih, ki niso bili vključeni v učno množico so manj uspešni, zaznajo ključne besede in splošno tematiko, ampak vključujejo pa tudi napačne podatke. Modeli ekstraktivnega povzemanja so zanesljivi, dobro pokrivajo tematike ter vsebujejo dejansko pomembne stavke.
Ključne besede:	vložitve besed, medjezikovne vložitve, jeziki z malo viri, abstraktivno povzemanje, ekstraktivno povzemanje, globoke nevronske mreže, jezikovni modeli, učenje s prenosom znanja

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj