izpis_h1_title_alt

Postavljanje vejic v slovenščini s pomočjo strojnega učenja
KRAJNC, ANJA (Avtor), Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (444,77 KB)

Izvleček
Cilj diplomske naloge se je naučiti postavljanja vejic s strojnim učenjem. Naš pristop temelji na generiranju novih atributov na podlagi slovničnih pravil za slovenski jezik, ki z dodatno informacijo omogočijo boljše učenje, tj. višjo natančnost in priklic. Osredotočili smo se na postavljanje vseh vejic v besedilu. Izhajali smo iz že obstoječe raziskave za postavljanje vejic v slovenščini, ki smo jo dopolnili z drugačnimi metodami učenja, drugačnimi parametri, vzorčenjem neuravnoteženih množic ter z dodatnimi informativnimi atributi. Za analizo smo uporabili korpus Šolar in izboljšano verzijo tega korpusa. Za modeliranje smo uporabili sistem za strojno učenje WEKA. Najboljše rezultate smo dosegli z algoritmi naključna drevesa, alternirajoče odločitveno drevo ter odločitvena tabela.

Jezik:Slovenski jezik
Ključne besede:procesiranje naravnega jezika, obdelava jezika, slovenski jezik, vejica, ločila, jezikovne tehnologije, naključni gozdovi, SVM, prečno preverjanje, podvzorčenje, strojno učenje.
Vrsta gradiva:Diplomsko delo/naloga (mb11)
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2015
Število ogledov:1296
Število prenosov:216
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
 
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
:
Objavi na:AddThis
AddThis uporablja piškotke, za katere potrebujemo vaše privoljenje.
Uredi privoljenje...

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Using machine learning for placing comma in Slovene
Izvleček:
We aim to learn comma placing using machine learning. Our approach is based on adding new attributes created from grammatical rules for the Slovenian language, which provides more information and thus enable better learning, i.e., higher precision and recall. We focus on placing all the commas in the text. We modify an existing research with additional learning methods, different parameters, undersampling and knowledge based attributes. We use corpus Šolar and improved corpus Šolar for testing and machine learning toolkit WEKA. Best results were achieved with random forests, alternating decision tree and decision table models.

Ključne besede:natural language processing, language manipulation, Slovenian language, comma, punctuation mark, language technologies, random forest, SVM, cross-validation, undersampling, machine learning.

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj