Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Statistična analiza slovenskih jezikovnih korpusov
ID
KLJUČEVŠEK, ALEKSANDER
(
Avtor
),
ID
Robnik Šikonja, Marko
(
Mentor
)
Več o mentorju...
,
ID
Krek, Simon
(
Komentor
)
PDF - Predstavitvena datoteka,
prenos
(561,69 KB)
MD5: 7C63EA28D0E7F2813D279BC796DD8C5D
PID:
20.500.12556/rul/a1880141-3dca-49f2-881a-b9fed53c7177
Galerija slik
Izvleček
Področje procesiranja naravnega jezika je pomembna in obsežna panoga računalništva, vendar je večina obstoječih orodij razvitih in prilagojenih za obdelavo angleških besedil. Razvili smo orodje za statistično analizo velikih jezikovnih korpusov, ki upošteva značilnosti slovenščine kot močno pregibnega jezika. Današnji besedilni korpusi lahko vsebujejo tudi več milijard besed, zato je bil velik del pozornosti namenjen razvoju učinkovitih paralelnih algoritmov, s katerimi bo moč tako obsežne zbirke v razmeroma kratkem času obdelati tudi na običajnih računalnikih. Z orodjem smo analizirali korpus Gigafida, ki vsebuje 1,2 milijarde besed, na več nivojih: na nivoju besednih nizov, nivoju besed, n-gramov, predpon in končnic ter tudi besedotvorne procese v slovenščini.
Jezik:
Slovenski jezik
Ključne besede:
statistična analiza jezika
,
jezikovni korpus
,
Gigafida
,
paralelni algoritmi
Vrsta gradiva:
Diplomsko delo
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Leto izida:
2016
PID:
20.500.12556/RUL-85513
Datum objave v RUL:
15.09.2016
Število ogledov:
1938
Število prenosov:
360
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
KLJUČEVŠEK, ALEKSANDER, 2016,
Statistična analiza slovenskih jezikovnih korpusov
[na spletu]. Diplomsko delo. [Dostopano 1 maj 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=85513
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Statistical analysis of Slovene language corpuses
Izvleček:
Natural language processing is an important area of computational linguistics and artificial intelligence . Mostly, its existing applications are developed for and based on English texts. We developed an application for the statistical analysis of large text corpora, which takes into account the unique characteristics of Slovene as a strongly inflected language. Since modern text corpora consist of several billion words, we paid special attention to efficient parallel algorithms that are capable of processing these collections in a relatively short amount of time. We analyzed the Gigafida corpus - consisting of 1.2 billion words - on multiple levels: string level, word level, n-gram level, prefix and suffix level, as well as word formation processes of Slovene.
Ključne besede:
statistical language analysis
,
text corpus
,
Gigafida
,
parallel algorithms
Podobna dela
Podobna dela v RUL:
Odpoved pogodbe o zaposlitvi s ponudbo nove
Odpoved pogodbe o zaposlitvi iz razloga nesposobnosti
Izredna odpoved pogodbe o zaposlitvi
Pravni in ekonomski vidik odpovedi pogodbe o zaposlitvi
Delovnopravni vidiki prezentizma
Podobna dela v drugih slovenskih zbirkah:
Odpoved pogodbe o zaposlitvi iz poslovnih razlogov
Odpoved delovnega razmerja - primerjava med javno upravo in zasebnim sektorjem
Postopek odpovedi pogodbe o zaposlitvi v sodni praksi
Pogodbe o zaposlitvi s sodno prakso
Delodajalčeva izredna odpoved pogodbe o zaposlitvi
Nazaj