Prilagoditev statističnega strojnega prevajalnika za specifično domeno v slovenskem jeziku

KADIVEC, JOŽE

Repository of the University of Ljubljana

Details

Prilagoditev statističnega strojnega prevajalnika za specifično domeno v slovenskem jeziku
ID KADIVEC, JOŽE (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

, ID Vintar, Špela (Comentor)

PDF - Presentation file, Download (3,52 MB)
MD5: E8D6DC7B4411BA29455502704FA212A1
PID: 20.500.12556/rul/60eed131-3f8b-4ccf-8b7f-114eb943ea16

Abstract

Strojno prevajanje, še posebej statistično strojno prevajanje, se je v zadnjih letih zelo razširilo, zahvaljujoč predvsem vse večjemu številu večjezičnih jezikovnih virov. Večina javno dostopnih strojnih prevajalnikov nam omogoča, da dobimo osnovno razumevanje vsebine v tujem jeziku, medtem ko ti niso dovolj natančni za specifične domene. Študije za nekatere tuje jezike kažejo izboljšanje strojnega prevajalnika, če je za učenje uporabljena domenska zbirka. Za slovenski jezik podobna študija še ni izvedena, kar predstavlja motivacijo za naše delo. Dodatno motivacijo predstavlja neobstoj javno dostopnega splošnega jezikovnega modela za slovenski jezik. V magistrskem delu se osredotočimo na prilagajanje statističnega strojnega prevajalnika za specifično domeno v slovenskem jeziku. Opišemo različne pristope k prilagajanju za specifično domeno. Vzpostavimo sistem za strojno prevajanje Moses in poiščemo ter prilagodimo obstoječe splošne korpuse za slovenski jezik kot osnovo za gradnjo primerjalnega jezikovnega modela. Iz označenega in neoznačenega korpusa slovenskega jezika ccGigafida izdelamo jezikovni model slovenskega jezika. Za področje farmacevtskih besedil poiščemo in prilagodimo obstoječe angleško-slovenske prevode in druge jezikovne vire, ki služijo kot učna množica za učenje strojnega prevajalnika. Ovrednotimo vpliv različnih jezikovnih virov na kakovost dobljenega strojnega prevoda za področje farmacije. Ovrednotenje izvedemo samodejno z metriko BLEU, nekatere testne prevode pa ročno ocenijo tudi strokovnjaki in potencialni uporabniki sistema. Analiza ocen pokaže, da testni prevodi, prevedeni z domenskim modelom, dosežejo precej boljše ocene od prevodov, prevedenih s splošnim modelom, medtem ko večji, kombinirani model, ne prinese boljših ocen od manjšega domenskega modela. Analiza ročnih ocen berljivosti in ustreznosti pokaže, da prevodi, ki dosežejo visoko oceno BLEU, lahko dosežejo nižje ocene berljivosti ali ustreznosti od testnih prevodov, ki so sicer dosegli nižjo oceno BLEU. Ugotovimo tudi, da uporaba strokovnega slovarja doprinese 1 oceno BLEU in zagotovilo, da je uporabljeno želeno izrazoslovje.

Language:	Slovenian
Keywords:	strojno prevajanje, statistično strojno prevajanje, prilagajanje strojnega prevajalnika za specifično domeno, prilagajanje statističnega strojnega prevajanja za področje farmacije, faktorski model, Moses, model na osnovi besednih zvez, Cohenova kappa, Fleissova kappa, strinjanje ocenjevalcev
Work type:	Master's thesis
Organization:	FRI - Faculty of Computer and Information Science
Year:	2016
PID:	20.500.12556/RUL-84815
Publication date in RUL:	05.09.2016
Views:	4061
Downloads:	972
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Domain specific adaptation of a statistical machine translation engine in Slovene language
Machine translation, especially statistical machine translation gained a lot of interest in recent years, mainly thanks to the increase of publicly available multilingual language resources. In terms of obtaining the basic understanding of the target language text, the majority of free machine translation systems give us satisfactory results but are not accurate enough for specific domain texts. For some foreign languages, research shows increases in the quality of the machine translation if trained with the in-domain data. Such research has not yet been conducted for the Slovenian language which presents the motivation for our research. Additional motivation is the nonexistence of a publicly available language model for the Slovenian language. This master thesis focuses on a statistical machine translation system adaptation for a specific domain in the Slovenian language. Various approaches for the adaptation to a specific domain are described. We set up the Moses machine translation system framework and acquire and adapt existing general corpora for the Slovenian language as a basis for building a comparative linguistic model. Annotated and non-annotated Slovenian corpus, ccGigafida, is used to create a linguistic model of the Slovenian language. For the pharmaceutical domain, existing English-Slovenian translations and other linguistic resources have been found and adapted to serve as a learning base for the machine translation system. We evaluate the impact of various linguistic resources on the quality of machine translation for the pharmaceutical domain. The evaluation is conducted automatically using the BLEU metrics. In addition, some test translations are manually evaluated by experts and potential system users. The analysis shows that test translations, translated with the domain model, achieve better results than translations that are generated using the out-of-domain model. Surprisingly, bigger, combined model, does not achieve better results than the smaller domain model. The manual analysis of the resulting fluency and adequacy shows that translations that achieve a high BLEU grade can achieve lower fluency or adequacy grades than the test translations that otherwise achieved a lower BLEU grade. The experiment with the addition of the domain-based dictionary to the in-domain translation model shows a gain of 1 BLEU grade and assures the use of the desired terminology.
Keywords:	machine translation, statistical machine translation, statistical machine translation system adaptation for specific domain, statistical machine translation system adaptation for pharmaceutical domain, factor model, Moses phrase based model, Cohen’s kappa, Fleiss kappa, agreement of ratters

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents