V zadnjih letih so se glasovni asistenti močno vključili v naše vsakodnevno življenje. Od
Amazonove Alexe do Applove Siri, ljudje uporabljajo glasovne asistente na vsakem koraku. Glasovni asistenti so eni izmed predstavnikov sistemov za obdelavo naravnega jezika, ki jo v grobem razdelimo na razumevanje in tvorjenje naravnega jezika. V tej magistrski nalogi se osredotočamo na razumevanje naravnega jezika, saj je le-to ključno za dobro delovanje zvočnih asistentov.
Vgrajeni glasovni asistenti v avtomobilih, kot je 'Hey Mercedes', imajo ključno vlogo pri zagotavljanju različnih informacij vozniku. Omogočajo komunikacijo o različnih temah in uporabnikom omogočajo izvedbo različnih nalog s preprostim izdajanjem glasovnih ukazov, pri čemer ni potrebna ročna intervencija. Primer tovrstne asistence je zapiranje in odpiranje oken z zvočnim ukazom.
Algoritmi razumevanja naravnega jezika omogočajo sistemu, da iz uporabnikove zahteve izlušči pomembne informacije, ki so ključne za zagotavljanje želenih odgovorov ali izvajanje želenih dejanj. Obstaja veliko različnih nalog v povezavi z razumevanjem naravnega jezika, vendar sta za sisteme, kot so glasovni asistenti, klasifikacija namena in polnjenje besednih rež dve najbolj pomembni. Klasifikacija namena zajema prepoznavo temeljnega namena uporabnika, medtem ko se polnjenje besednih rež posveča izluščanju specifičnih besednih rež iz uporabnikove zahteve. Te besedne reže dodajajo podrobne in specifične informacije, ki dopolnjujejo uporabnikov namen, kar vodi v natančnejši in celovit sistemski odziv.
Jezikovni modeli so osnovni gradniki razumevanja naravnega jezika. Tradicionalno ti modeli zahtevajo obsežne količine podatkov za nadzorovano učenje za specifično nalogo. Če želimo, da naš jezikovni model izkazuje visok nivo razumevanja naravnega jezika v določenem ciljnem jeziku, potem je nujno da imamo v tem jeziku na voljo podatkovne zbirke za nadzorovano učenje.
Težava se pojavi, ko se soočimo s pomanjkanjem označenih podatkov za nadzorovano učenje v določenem jeziku. Angleščina, ki prevladuje na spletu, ima po navadi na voljo obilico podatkovnih zbirk. Na drugi strani pa za večino jezikov primanjkuje podatkovnih zbirk, ki bi jih lahko uporabili za nadzorovano učenje jezikovnih modelov.
Izdelava podatkovnih zbirk v novem jeziku je drag in časovno zahteven postopek. Tu nastopijo tehnike medjezičnega prenosa učenja, ki so v zadnjih letih pridobile veliko pozornosti. Te metode izkoriščajo podatkovne zbirke v jezikih, v katerih so te podatkovne zbirke že na voljo, in dosežejo, da jezikovni model uspešno opravlja določeno nalogo razumevanja naravnega jezika (v našem primeru sta ti nalogi klasifikacija namena in polnjenje besednih rež). Uspešna implementacija tehnik medjezičnega prenosa učenja ne le zmanjšuje stroške, ampak tudi pospešuje vključevanje novih jezikov v sisteme glasovnih asistentov.
Glasovni asistent 'Hey Mercedes', ki je na voljo v avtomobilih znamke Mercedes-Benz, zna komunicirati z uporabnikom o različnih temah. Različnim tematikam, o katerih je zvočni asistent sposoben komunicirati, pravimo domene. V zvočnem asistentu 'Hey Mercedes' je večina domen na voljo v več jezikih. Ko želijo pri Mercedesu integrirati nov jezik v glasovnega asistenta za določeno domeno, je tu navadno že na voljo podatkovna zbirka v jeziku, ki je že implementiran v zvočnega asistenta. Tehnike medjezičnega prenosa učenja nam omogočajo, da uporabimo že obstoječe podatkovne zbirke v nekem jeziku in prek njih dosežemo želen nivo razumevanja v našem ciljnem jeziku, kar je bistveno hitreje in ceneje kot kreiranje nove podatkovne zbirke za specifični ciljni jezik.
Osnovni cilj te magistrske naloge je raziskati različne pristope medjezičnega prenosa učenja in izbrati najučinkovitejšega. Metrike, ki jih uporabimo za končno ovrednotenje, sta natančnost za klasifikacijo namena in F1 metrika za polnjenje besednih rež. Naša raziskava zajema štiri različne skupine pristopov: neposredni prenos, pristopi na osnovi prevoda, pristop prek preklapljanja jezikov in pristopi učenja v kontekstu. Naša raziskava zajema štiri različne skupine pristopov: neposredni prenos, pristopi na osnovi prevoda, pristop prek preklapljanja jezikov in pristopi učenja v kontekstu.
Raziskava zajema obsežno serijo eksperimentov, izvedenih na dveh ločenih domenah. V prvi domeni, ki se imenuje ATIS (angl. Airline Travel Information System), določimo angleščino kot jezik za katerega imamo na voljo označeno podatkovno zbirko. Prizadevamo si doseči dober nivo razumevanja modela na ciljnih jezikih, vključno z nemščino, španščino, francoščino in portugalščino. Druga domena se imenuje Mercedes Car Functions, kjer izberemo nemščino kot jezik, za katerega imamo na voljo označeno podatkovno zbirko in ciljamo na dobro razumevanje modela v angleščini, francoščini, španščini in portugalščini.
Rezultati, do katerih smo prišli, jasno prikazujejo, da je metoda preklapljanja jezikov najbolj uspešna metoda, a se moramo zavedati, da je le-ta močno odvisna od kvalitete in dostopnosti prevajalnikov. V nekaterih primerih prevajalniki niso na voljo ali pa prevodi niso kvalitetni. V tem primeru metoda preklapljanja jezikov ni najbolj primerna in se moramo zanesti na ostale pristope.
|