izpis_h1_title_alt

Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov
ID Fišer, Darja (Avtor), ID Ljubešić, Nikola (Avtor)

.pdfPDF - Predstavitvena datoteka, prenos (97,27 KB)
MD5: AFDA1F7C3F9DA7B1C1BEBD5FEC5E53D2
URLURL - Izvorni URL, za dostop obiščite https://centerslo.si/simpozij-obdobja/zborniki/obdobja-30/ Povezava se odpre v novem oknu

Izvleček
V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Jezik:Slovenski jezik
Ključne besede:slovenščina, hrvaščina, korpusno jezikoslovje, primerljivi korpusi, spletni korpusi, dvojezični leksikoni, luščenje prevodnih ustreznic, sorodnice
Vrsta gradiva:Članek v reviji
Tipologija:1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija:FF - Filozofska fakulteta
Leto izida:2011
Št. strani:Str. 137-144
PID:20.500.12556/RUL-149208 Povezava se odpre v novem oknu
UDK:81'322.4=163.42=163.6:81'374:004.91
COBISS.SI-ID:47260258 Povezava se odpre v novem oknu
Datum objave v RUL:05.09.2023
Število ogledov:147
Število prenosov:6
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Gradivo je del monografije

Naslov:Meddisciplinarnost v slovenistiki
Uredniki:Simona Kranjc
Kraj izida:Ljubljana
Založnik:Znanstvena založba Filozofske fakultete
Leto izida:2011
ISBN:978-961-237-461-7
COBISS.SI-ID:258646784 Povezava se odpre v novem oknu
Naslov zbirke:Obdobja
Številčenje v zbirki:30

Sekundarni jezik

Jezik:Angleški jezik
Izvleček:
In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.

Ključne besede:Slovenian language, Croatian language, corpus linguistics, comparable corpora, web corpora, bilingual lexica, extraction of translation equivalents, cognates, translation

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj