Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež

Ulčar, Matej

Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež
ID Ulčar, Matej (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

, ID Dobrišek, Simon (Comentor)

PDF - Presentation file, Download (700,11 KB)
MD5: CF5844140875D1ACCAD9A61E360FA590

Abstract

Ročno zapisovanje govora je počasen proces, ki ga čedalje bolj nadomešča avtomatsko razpoznavanje govora. Slednje se lahko uporablja tudi za glasovno upravljanje programov in naprav. V magistrski nalogi smo kot osnovo za razpoznavanje govorjene slovenščine uporabili uveljavljene metode GMM-HMM za akustični model in n-gramov za jezikovni model. Modela smo nadgradili z uporabo globokih nevronskih mrež, ki so se izkazale za zelo uspešne. Preizkusili smo različne arhitekture časovno zakasnjenih nevronskih mrež in nevronskih mrež z dolgim kratkoročnim spominom na akustičnem in jezikovnem modelu razpoznavalnika govora. Razpoznavalnik smo učili na širokem besednjaku, ki vsebuje približno milijon različnih besed. Najboljše rezultate dosegajo časovno zakasnjene nevronske mreže, kjer smo dosegli 72,84% pravilno prepoznanih besed pri tekočem govoru.

Language:	Slovenian
Keywords:	strojno učenje, globoke nevronske mreže, razpoznavanje govora
Work type:	Master's thesis/paper
Organization:	FRI - Faculty of Computer and Information Science
Year:	2018
PID:	20.500.12556/RUL-104850
Publication date in RUL:	12.10.2018
Views:	2666
Downloads:	381
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Computer Speech Recognition in Slovene Language
Manual transcription of speech is slow and is being replaced by automatic speech recognition systems. These systems are also used for voice control of various programs and devices. In this thesis, we used as a baseline for Slovene speech recognition GMM-HMM methods for acoustic model and n-grams for language model. We improved both models with deep neural networks, which have proven to be very successful. We tested several architectures of time-delayed neural networks and neural networks with long short-term memory for both acoustic and language model. We used a large lexicon, containing about a million words. Time-delayed neural networks achieved the best results on continuous speech, with 72,84% of correctly identified words.
Keywords:	machine learning, deep neural networks, speech recognition

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents