izpis_h1_title_alt

Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov
ID Fišer, Darja (Author), ID Ljubešić, Nikola (Author)

.pdfPDF - Presentation file, Download (97,27 KB)
MD5: AFDA1F7C3F9DA7B1C1BEBD5FEC5E53D2
URLURL - Source URL, Visit https://centerslo.si/simpozij-obdobja/zborniki/obdobja-30/ This link opens in a new window

Abstract
V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Language:Slovenian
Keywords:slovenščina, hrvaščina, korpusno jezikoslovje, primerljivi korpusi, spletni korpusi, dvojezični leksikoni, luščenje prevodnih ustreznic, sorodnice
Work type:Article
Typology:1.16 - Independent Scientific Component Part or a Chapter in a Monograph
Organization:FF - Faculty of Arts
Year:2011
Number of pages:Str. 137-144
PID:20.500.12556/RUL-149208 This link opens in a new window
UDC:81'322.4=163.42=163.6:81'374:004.91
COBISS.SI-ID:47260258 This link opens in a new window
Publication date in RUL:05.09.2023
Views:414
Downloads:26
Metadata:XML DC-XML DC-RDF
:
Copy citation
Share:Bookmark and Share

Record is a part of a monograph

Title:Meddisciplinarnost v slovenistiki
Editors:Simona Kranjc
Place of publishing:Ljubljana
Publisher:Znanstvena založba Filozofske fakultete
Year:2011
ISBN:978-961-237-461-7
COBISS.SI-ID:258646784 This link opens in a new window
Collection title:Obdobja
Collection numbering:30

Secondary language

Language:English
Abstract:
In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.

Keywords:Slovenian language, Croatian language, corpus linguistics, comparable corpora, web corpora, bilingual lexica, extraction of translation equivalents, cognates, translation

Similar documents

Similar works from RUL:
Similar works from other Slovenian collections:

Back