Povzemanje besedila je postopek krčenja besedila na tekočo krajšo različico. Ker se obseg besedilnih podatkov hitro povečuje, lahko samodejno povzemanje besedil uporabnikom prihrani čas in zmanjša kognitivno obremenitev. Naloga zahteva poznavanje besedišča in semantike. Vnaprej naučeni veliki jezikovni modeli, kot je BERT, vsebujejo obsežno znanje jezika. Uporabljajo se lahko za prenos znanja iz modelov, naučenih na jezikih, bogatih z viri, v jezike z malo viri. V tem delu za medjezikovni prenos izkoriščamo znanje dveh modelov tipa BERT: trojezičnega hrvaško-slovensko-angleškega in večjezičnega modela. Preizkušamo ekstraktivne in abstraktivne pristope povzemanja, ki razširjajo arhitekturo BERT. Modele preizkusimo na podatkovnih množicah hrvaških komentarjev, ki nimajo povzetkov. Rezultate ocenjujemo z uporabo metrik ROUGE in BERTScore ter s človeškim vrednotenjem. Naučeni abstraktivni modeli ustvarjajo dobre povzetke v jezikih, v katerih so naučeni. V jezikih, ki niso bili vključeni v učno množico so manj uspešni, zaznajo ključne besede in splošno tematiko, ampak vključujejo pa tudi napačne podatke. Modeli ekstraktivnega povzemanja so zanesljivi, dobro pokrivajo tematike ter vsebujejo dejansko pomembne stavke.
|