Mašinski čitljivi morfološki leksikoni otvorenog koda korisni su za morfosintaksičko označavanje korpusa i predstavljaju ključni korak ka sastavljanju savremenih baza podataka digitalnih rečnika. U radu predstavljamo prvi korak ka proširenju funkcionalnosti Pregibalnika, prilagođenog alata otvorenog koda za proširenje slovenačkog leksikona, tako da pokrije srpski i hrvatski jezik i pomoći će automatskom proširenju leksikona novim unosima. Opisujemo proces izdvajanja morfoloških obrazaca iz hrLex i srLex morfoloških leksikona hrvatskog i srpskog jezika, kao i robustan proces selekcije atributa na osnovu završnih delova reči. Atributi se koriste za razvoj serije modela mašinskog učenja za predviđanje morfoloških obrazaca za hrvatske i srpske lekseme, postižući prosečan F1-mikro rezultat od 0,85 (u zavisnosti od tipa lekseme). Ovo takođe pomaže da se identifikuju potencijalne nedoslednosti unutar trenutnih verzija leksikona. Izvučeni obrasci i modeli dostupni su pod licencom Creative Commons CC-BY 4.0.
|