Izboljševanje kakovosti govornih posnetkov z modeli generativnih nasprotniških nevronskih omrežij

PRELC, VASJA

Izboljševanje kakovosti govornih posnetkov z modeli generativnih nasprotniških nevronskih omrežij
ID PRELC, VASJA (Avtor), ID Dobrišek, Simon (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (2,03 MB)
MD5: B7E132C0D5AAC6BC3251CEDE8538DD61

Izvleček

V predstavljenem delu smo izvedli, preizkusili in ovrednotili učinkovitost izbranih računskih metod izboljšanja kakovosti govora v zvočnih signalih, pri čemer so bili uporabljeni govorni posnetki v slovenskem jeziku. Metode za izboljšanje kakovosti govora se običajno uporabljajo kot predhodni proces pri sistemih za samodejno razpoznavanje govora, saj se z odpravo motenj in šumov, primešanih govornemu signalu, zmanjša možnost napačnega razpoznavanja govora. Uporaba tovrstnih metod je nepogrešljiva predvsem pri aplikacijah za video klice. V okviru predstavljenega dela smo preizkusili dva modela generativnih nasprotniških nevronskih omrežij, in sicer model nevronskega omrežja SEGAN in model nevronskega omrežja Wave-U-Net. Oba modela smo z metodami strojnega učenja naučili in preizkusili z uporabo slovenske govorne zbirke, ki je bila pridobljena v okviru projekta Razvoj slovenščine v digitalnem okolju (RSDO). Uspešnost uporabljenih modelov in metod smo na koncu ovrednotili in primerjali z merami, ki se običajno uporabljajo za vrednotenje kakovosti zvočnih govornih posnetkov. Analizirali smo delovanje obeh uporabljenih metod in razlike v njuni zmogljivosti pri uporabi govornih posnetkov v slovenskem in angleškem jeziku.

Jezik:	Slovenski jezik
Ključne besede:	Izboljševalniki govora, SEGAN, Wave-U-Net, RSDO, Slovenski jezik.
Vrsta gradiva:	Magistrsko delo/naloga
Organizacija:	FE - Fakulteta za elektrotehniko
Leto izida:	2022
PID:	20.500.12556/RUL-135535
COBISS.SI-ID:	101437187
Datum objave v RUL:	17.03.2022
Število ogledov:	877
Število prenosov:	49
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Improving the quality of voice recordings using generative adversarial neural network models
In the presented work, we implemented, tested and evaluated the effectiveness of selected computational methods for improving speech quality in audio signals, where we used speech recordings in the Slovenian language. Speech enhancement methods are commonly used as a pre-process in automatic speech recognition systems, as the elimination of disturbances and noises mixed with the speech signal reduces the possibility of incorrect speech recognition. The use of such methods is indispensable, especially in video calling applications. As part of the presented work, we tested two models of generative adversary neural networks, namely the SEGAN neural network model and the Wave-U-Net neural network model. Both models were trained and tested using machine learning methods with the Slovene language speech database, which was acquired as part of the project Development of Slovene in the Digital Environment (RSDO). The performance of the models and methods used was finally evaluated and compared with the measures commonly used to evaluate the quality of speech sound recordings. We analyzed the operation of both methods used and the differences in their performance when using Slovenian and English language speech recordings.
Ključne besede:	Speech enhancement, SEGAN, Wave-U-Net, RSDO, Slovenian language.

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj