Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov

Fišer, Darja; Ljubešić, Nikola

Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov
ID Fišer, Darja (Author), ID Ljubešić, Nikola (Author)

	PDF - Presentation file, Download (97,27 KB) MD5: AFDA1F7C3F9DA7B1C1BEBD5FEC5E53D2
	URL - Source URL, Visit https://centerslo.si/simpozij-obdobja/zborniki/obdobja-30/

Abstract

V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Language:	Slovenian
Keywords:	slovenščina, hrvaščina, korpusno jezikoslovje, primerljivi korpusi, spletni korpusi, dvojezični leksikoni, luščenje prevodnih ustreznic, sorodnice
Work type:	Article
Typology:	1.16 - Independent Scientific Component Part or a Chapter in a Monograph
Organization:	FF - Faculty of Arts
Year:	2011
Number of pages:	Str. 137-144
PID:	20.500.12556/RUL-149208
UDC:	81'322.4=163.42=163.6:81'374:004.91
COBISS.SI-ID:	47260258
Publication date in RUL:	05.09.2023
Views:	414
Downloads:	26
Metadata:
:	Copy citation
Share:

Record is a part of a monograph

Title:	Meddisciplinarnost v slovenistiki
Editors:	Simona Kranjc
Place of publishing:	Ljubljana
Publisher:	Znanstvena založba Filozofske fakultete
Year:	2011
ISBN:	978-961-237-461-7
COBISS.SI-ID:	258646784
Collection title:	Obdobja
Collection numbering:	30

Secondary language

Abstract:
Language:	English
In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.
Keywords:	Slovenian language, Croatian language, corpus linguistics, comparable corpora, web corpora, bilingual lexica, extraction of translation equivalents, cognates, translation

Similar works from RUL:
Similar works from other Slovenian collections:

Record is a part of a monograph

Secondary language

Similar documents