izpis_h1_title_alt

Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov
Fišer, Darja (Avtor), Ljubešić, Nikola (Avtor)

URLURL - Predstavitvena datoteka, za dostop obiščite http://www.centerslo.net/files/file/simpozij/simp30/Zbornik/Fiser_Ljubesic.pdf Povezava se odpre v novem oknu

Izvleček
V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Jezik:Slovenski jezik
Ključne besede:slovenščina, hrvaščina, korpusno jezikoslovje, primerljivi korpusi, spletni korpusi, dvojezični leksikoni, luščenje prevodnih ustreznic, sorodnice
Vrsta gradiva:Delo ni kategorizirano (r6)
Tipologija:1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija:FF - Filozofska fakulteta
Leto izida:2011
Št. strani:Str. 137-144
UDK:81'322.4=163.42=163.6:81'374:004.91
COBISS.SI-ID:47260258 Povezava se odpre v novem oknu
Število ogledov:470
Število prenosov:113
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
 
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
:
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Sekundarni jezik

Jezik:Angleški jezik
Izvleček:
In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.

Ključne besede:Slovenian language, Croatian language, corpus linguistics, comparable corpora, web corpora, bilingual lexica, extraction of translation equivalents, cognates, translation

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj