Da bi algoritmi strojnega učenja, še posebej nevronske mreže, delali z besedilnimi podatki, potrebujejo vložitve besed – predstavitev besed v visokodimenzionalnem vektorskem prostoru. Za nekatere jezike je na voljo le majhna količina jezikovnih virov. Zanje je pomembno izkoriščanje znanja iz tehnološko bolj razvitih jezikov, kar omogočajo medjezikovne vložitve. Te vektorski prostor besed enega jezika preslikajo v vektorski prostor drugega jezika. Obstoječe metode za poravnavo vektorskih vložitev so namenjene kontekstno neodvisnim vložitvam, kjer ima vsaka beseda le eno predstavitev. Obstoječe metode za poravnavo vektorskih vložitev so namenjene kontekstno neodvisnim vložitvam, kjer ima vsaka beseda le eno predstavitev. Predstavljamo pristop, ki na podlagi slovarja in paralelnega korpusa poravna kontekstne vložitve, ki zajemajo več informacij o kontekstu, v katerem so besede uporabljene. Predlagani pristop zahteva majhno količino dvojezičnih virov, ki so na voljo za mnogo parov jezikov. Empirično pokažemo, da je predlagani pristop opazno boljši od izhodiščnega, s katerim poravnavamo kontekstno neodvisne vložitve.
|