Otvoreni paralelni semantički anotiran korpus ELEXIS-WSD razvijen je u okviru projekta ELEXIS i u verziji 1.1 sadrži 2.024 rečenice za svaki od 10 jezika: bugarski, danski, engleski, španski, estonski, mađarski, italijanski, holandski, portugalski i slovenački. U rečenicama, svakoj reči koja nose značenje (imenice, pridevi, glagoli i prilozi) dodeljeno je odgovarajuće značenje iz jednog od 10 otvorenih repozitorijuma značenja koji sadrže definicije. U kontekstu UniDive COST akcije (CA21167), korpus se proširuje sa nekoliko novih jezika, uključujući južnoslovenske jezike. U ovom radu fokusiramo se na tri potkorpusa: hrvatski, srpski i slovenački. Ukratko opisujemo strukturu i namenu ELEXIS-WSD korpusa, a zatim nastavljamo sa opisom procesa proširenja korpusa, koji uključuje nekoliko različitih faza – od prevođenja do tokenizacije, lematizacije i obeležavanja vrsta reči (POStagging), zatim anotacije imenovanih entiteta i polileksemskih izraza/imenovanih entiteta, i konačno, razrešavanja višeznačnosti reči. U radu razmatramo neke od izazova sa kojima smo se do sada susreli u različitim fazama, kako u pripremi korpusa, tako i u pripremi repozitorijuma značenja. Takođe opisujemo planove za budući rad na dodatnim slojevima anotacije u okviru UniDive projekta, sa ciljem daljeg poboljšanja ELEXIS-WSD korpusa kao visokokvalitetnog, bogato anotiranog i ručno verifikovanog skupa podataka koji je koristan za NLP zadatke kao što je razrešavanje višeznačnosti reči.
|