Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Generiranje slovenskega govora na podlagi učnih množic več govorcev
ID
ŠABANOV, TOM
(
Avtor
),
ID
Robnik Šikonja, Marko
(
Mentor
)
Več o mentorju...
PDF - Predstavitvena datoteka,
prenos
(967,58 KB)
MD5: 509BDEA179B8AB53622826C79841113B
Galerija slik
Izvleček
V diplomskem delu smo naslovili problem sinteze slovenskega govora na podlagi sorazmerno majhne učne množice. Opisali smo starejše pristope sinteze govora, kot sta artikularna in formantna sinteza, ter sodobne pristope sinteze z združevanjem enot in sinteze govora s pomočjo globokih nevronskih mrež. Ustvarili smo različne podatkovne množice iz 30 ur govora štirih govorcev, ki smo jih uporabili za sintezo govora. Uporabili smo arhitekturi ForwardTacotron za generiranje mel-spektrogramov ter Hifi-GAN za pretvorbo teh spektrogramov v zvočne signale. Ustvarili smo splošni model za moški govor, ki ga je možno prilagoditi na nove govorce. Najboljši ustvarjeni sistem dosega dobro povprečno oceno poslušalcev (4.07 na lestvici od 1-5) in daje vtis naravnega govora.
Jezik:
Slovenski jezik
Ključne besede:
sinteza slovenskega govora
,
globoke nevronske mreže
,
model Tacotron
Vrsta gradiva:
Diplomsko delo/naloga
Tipologija:
2.11 - Diplomsko delo
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Leto izida:
2021
PID:
20.500.12556/RUL-129214
COBISS.SI-ID:
75236355
Datum objave v RUL:
30.08.2021
Število ogledov:
1609
Število prenosov:
190
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
ŠABANOV, TOM, 2021,
Generiranje slovenskega govora na podlagi učnih množic več govorcev
[na spletu]. Diplomsko delo. [Dostopano 25 april 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=129214
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Slovene speech synthesis using multi-speaker datasets
Izvleček:
In the thesis, we addressed the problem of Slovene speech synthesis based on relatively small data set. We described older approaches to speech synthesis like articular and formant synthesis, and more modern approaches like unit selection and speech synthesis with deep neural networks. We created a dataset consisting 30 hours of speech from four speakers for use with speech synthesis. We used ForwardTacotron architecture for generating mel-spectrograms and Hifi-GAN architecture for generating waveforms from these spectrograms. We created a basic model for male speech, which can be fine-tuned for new speakers. The best system we created achieved a good mean opinion score of listeners (4.07 on a scale 1-5) that simulates natural speech.
Ključne besede:
slovene speech synthesis
,
deep neural networks
,
Tacotron model
Podobna dela
Podobna dela v RUL:
Iščem podobna dela...
Podobna dela v drugih slovenskih zbirkah:
Nazaj