20.500.12556/RUL-108794
Cross–lingual mappings of contextual word embedding ELMo
Medjezikovne poravnave kontekstne vložitve besed ELMo
To work with textual data, machine learning algorithms, in particular, neural networks, require word embeddings – vector representations of words in high-dimensional space. There are languages with a small amount of available resources. Exploiting the knowledge from the well-resourced languages for under-resourced languages is possible with cross-lingual embeddings by aligning the embeddings of one language with the vector space of another language. Existing methods for aligning embeddings are intended for context-independent embeddings, where every word has one representation. We propose a method, based on a dictionary and a parallel corpus aligns contextual embeddings, which capture more information about the context in which words appear. The proposed method requires a small amount of bilingual data, which is available for many language pairs. We empirically show that the proposed method outperforms the baseline obtained by alignment of context-independent embeddings.
Da bi algoritmi strojnega učenja, še posebej nevronske mreže, delali z besedilnimi podatki, potrebujejo vložitve besed – predstavitev besed v visokodimenzionalnem vektorskem prostoru. Za nekatere jezike je na voljo le majhna količina jezikovnih virov. Zanje je pomembno izkoriščanje znanja iz tehnološko bolj razvitih jezikov, kar omogočajo medjezikovne vložitve. Te vektorski prostor besed enega jezika preslikajo v vektorski prostor drugega jezika. Obstoječe metode za poravnavo vektorskih vložitev so namenjene kontekstno neodvisnim vložitvam, kjer ima vsaka beseda le eno predstavitev. Obstoječe metode za poravnavo vektorskih vložitev so namenjene kontekstno neodvisnim vložitvam, kjer ima vsaka beseda le eno predstavitev. Predstavljamo pristop, ki na podlagi slovarja in paralelnega korpusa poravna kontekstne vložitve, ki zajemajo več informacij o kontekstu, v katerem so besede uporabljene. Predlagani pristop zahteva majhno količino dvojezičnih virov, ki so na voljo za mnogo parov jezikov. Empirično pokažemo, da je predlagani pristop opazno boljši od izhodiščnega, s katerim poravnavamo kontekstno neodvisne vložitve.
cross-lingual word embeddings
contextual word embeddings
vector word embeddings
word translation
parallel corpus
vector space mappings
singular value decomposition
medjezikovne vložitve besed
kontekstne vložitve besed
vektorske vložitve besed
prevajanje besed
paralelni korpus
preslikave vektorskih prostorov
razcep z metodo singularnih vrednosti
true
false
false
Angleški jezik
Slovenski jezik
Diplomsko delo/naloga
2019-07-25 12:10:01
2019-07-25 12:10:05
2022-08-20 03:48:36
0000-00-00 00:00:00
2019
0
0
0000-00-00
NiDoloceno
NiDoloceno
NiDoloceno
0000-00-00
0000-00-00
0000-00-00
1970-01-01
23334
Milosheski_Ljupche_-_Medjezikovne_poravnave_kontekstne_vlozitve_besed_ELMo.pdf
Milosheski_Ljupche_-_Medjezikovne_poravnave_kontekstne_vlozitve_besed_ELMo.pdf
1
37BEA5C7919B6FFB635FB9A46A76ED69
645275744bfd05e36afc02a450ffcf35364b32c13d1bebadba61a469950e23cf
ba7a5a87-a1b6-11eb-a523-00155dcfd717
https://repozitorij.uni-lj.si/Dokument.php?lang=slv&id=119912
Fakulteta za računalništvo in informatiko
0
0
0