Izgradnja podpore slovenščini v knjižnici Spacy

Dragar, Luka

Izgradnja podpore slovenščini v knjižnici Spacy
ID Dragar, Luka (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (552,43 KB)
MD5: 33141FB6E06410A34286B9B67E4F9FD2

Izvleček

Predstavljen je postopek izgradnje podpore za slovenščino v okolju Spacy, ki je ena najpopularnejših knjižnic za obdelavo naravnega jezika. Opisane so osnovne funkcionalnosti orodij za obdelavo naravnega jezika in predsta- vljene nekatere obstoječe knjižnice, modeli ter korpusi s tega področja. Po- drobneje je predstavljeno okolje Spacy in njegova implementacija cevovoda za označevanje besedil. Praktični del obsega izdelavo novih modelov za le- matizacijo, oblikoskladenjsko označevanje, skladenjsko razčlenjevanje in pre- poznavanje imenskih entitet v standardnem in nestandardnem slovenskem jeziku. Ena od komponent izdelave so besedni vektorji, ki jih generiramo iz obstoječih prosto dostopnih korpusov. Modeli strojnega učenja so ustvarjeni s pomočjo odprtokodne knjižnice Thincc. Opisan je postopek konfiguracije in treniranja modelov na ročno označenih učnih množicah ssj500k (za stan- dardno slovenščino) in Janes-Tag (za nestandardno slovenščino). Zgrajene komponente ovrednotimo s primerjavo hitrosti ter natančnosti že obstoječih modelov.

Jezik:	Slovenski jezik
Ključne besede:	obdelava naravnega jezika, označevanje besedil, spacy, korpus, besedni vektorji
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko FMF - Fakulteta za matematiko in fiziko
Leto izida:	2022
PID:	20.500.12556/RUL-139799
COBISS.SI-ID:	121780227
Datum objave v RUL:	07.09.2022
Število ogledov:	1221
Število prenosov:	140
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Building support for Slovene in Spacy library
We present the implementation of the Slovenian annotation pipeline in Spacy, which is one of the most popular libraries for natural language processing. We outline some of the existing tools, models and corpora. Spacy and it’s low-level pipeline for language annotations are described in detail. We imple- mentint new models for lemmatization, part-of-speech tagging, dependency parsing and named entity recognition for Slovenian. We generate static word embeddings from existing and publicly available corpora. The models are built using neural networks and the open source library Thincc. We describe the configuration and training of the models on two public corpora, ssj500k (for standard Slovenian) and Janes-Tag (for nonstandard Slovenian). The models are evaluated and compared to existing tools.
Ključne besede:	natural language processing, text annotation, spacy, corpus, word embeddings

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj