Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov

Fišer, Darja; Ljubešić, Nikola

Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov
ID Fišer, Darja (Avtor), ID Ljubešić, Nikola (Avtor)

	PDF - Predstavitvena datoteka, prenos (97,27 KB) MD5: AFDA1F7C3F9DA7B1C1BEBD5FEC5E53D2
	URL - Izvorni URL, za dostop obiščite https://centerslo.si/simpozij-obdobja/zborniki/obdobja-30/

Izvleček

V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Jezik:	Slovenski jezik
Ključne besede:	slovenščina, hrvaščina, korpusno jezikoslovje, primerljivi korpusi, spletni korpusi, dvojezični leksikoni, luščenje prevodnih ustreznic, sorodnice
Vrsta gradiva:	Članek v reviji
Tipologija:	1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija:	FF - Filozofska fakulteta
Leto izida:	2011
Št. strani:	Str. 137-144
PID:	20.500.12556/RUL-149208
UDK:	81'322.4=163.42=163.6:81'374:004.91
COBISS.SI-ID:	47260258
Datum objave v RUL:	05.09.2023
Število ogledov:	415
Število prenosov:	26
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Meddisciplinarnost v slovenistiki
Uredniki:	Simona Kranjc
Kraj izida:	Ljubljana
Založnik:	Znanstvena založba Filozofske fakultete
Leto izida:	2011
ISBN:	978-961-237-461-7
COBISS.SI-ID:	258646784
Naslov zbirke:	Obdobja
Številčenje v zbirki:	30

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.
Ključne besede:	Slovenian language, Croatian language, corpus linguistics, comparable corpora, web corpora, bilingual lexica, extraction of translation equivalents, cognates, translation

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj