Poravnava besedil in zvočnih posnetkov slovenskega govora in petja

ŽAKELJ, MARK

Poravnava besedil in zvočnih posnetkov slovenskega govora in petja
ID ŽAKELJ, MARK (Avtor), ID Marolt, Matija (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,50 MB)
MD5: 2CCC5AD5E25CBFB8322A76E76D1813D6

Izvleček

V diplomski nalogi podamo splošno uporabno rešitev za problem poravnave zvočnega posnetka in pripadajoče transkripcije. Rešitev je sestavljena iz treh komponent: segmentacija posnetka, razpoznavanje govora in poravnava besedil. V nalogi se osredotočimo na uporabo različnih akustičnih modelov za razpoznavanje govora in uporabo različnih metod dekodiranja izhodov modela. Predlagamo tudi razširitev obstoječega algoritma za poravnavo besedil, s čimer zagotovimo poravnavo za vsako besedo v originalnem besedilu. Sistem ovrednotimo na nenarečnem in narečnem govoru ter na narečnem petju brez spremljave, pri čemer uporabimo tri metrike bazirane na absolutni napaki poravnav. Poravnava govora se izkaže za kvalitetno in je primerljiva s kvaliteto podobnih sistemov v tujih jezikih.

Jezik:	Slovenski jezik
Ključne besede:	poravnava besedil, razpoznavanje govora, CTC, jezikovni model, narečni govor, konvolucijska nevronska mreža
Vrsta gradiva:	Diplomsko delo/naloga
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2021
PID:	20.500.12556/RUL-130487
COBISS.SI-ID:	78692355
Datum objave v RUL:	15.09.2021
Število ogledov:	937
Število prenosov:	77
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Text to audio alignment of Slovenian speech and singing
In this thesis, we build a general-purpose solution for the alignment of the voice recording and the associated transcription. The solution consists of three components: sound segmentation, speech recognition, and text alignment. This thesis focuses on the use of different acoustic models for speech recognition and the use of different methods of decoding model outputs. We also propose a new extension of the existing text alignment algorithm to provide alignment of each word in the original text. The system is evaluated on non-dialectal and dialectal speech and unaccompanied dialectal singing, using three metrics based on absolute alignment error. Speech alignment proves to be of good quality and is comparable to the quality of similar systems in foreign languages.
Ključne besede:	text alignment, speech recognition, CTC, language model, dialectal speech, convolutional neural network

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj