Evalvacija algoritmov za diarizacijo govorcev v zvočnih posnetkih : diplomsko delo

Mileski, Vanja

Podrobno

Evalvacija algoritmov za diarizacijo govorcev v zvočnih posnetkih : diplomsko delo
ID Mileski, Vanja (Avtor), ID Marolt, Matija (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,35 MB)
MD5: A6AD198B07B104937533848889EEC21F
PID: 20.500.12556/rul/9875c5c4-2118-4de4-80d2-df6ff910d6e5

Izvleček

Segmentacija govorcev (diarizacija) je postopek, ki razdeli zvočni posnetek na odseke glede na identiteto govorcev. Segmentacija govorcev v zvočnih posnetkih nam da odgovor na vprašanje kdo je kdaj govoril. V tem diplomskem delu se posvetimo avtomatični segmentaciji govorcev v različnih zvočnih posnetkih. Pripravimo si testno množico zvočnih posnetkov v slovenščini, ki jih pridobimo iz terenskih posnetkov. Posnetki vsebujejo dva ali več govorcev in zelo pogosto tudi druge zvoke, tišino, prekrivanje med govorcema in podobno. Zanje ročno zgradimo transkripcije za število govorcev in časovni interval govora posameznega govorca, ki bo predstavljal našo resnico (angl. ground-truth). Nad testno množico poženemo vse algoritme za diarizacijo, ki jih ocenjujemo. Napišemo program, ki za vhod vzame rezultate vseh algoritmov, ki imajo različne formate in vrste zastopanja rezultatov, ter jih pretvorimo v enotno obliko. Ocenjujemo natančnost algoritmov in analiziramo, kako dobro delajo v različnih situacijah.

Jezik:	Slovenski jezik
Ključne besede:	segmentacija govorcev, diarizacija, terenski posnetki, govor, evalvacija algoritmov
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Založnik:	[V. Mileski]
Leto izida:	2015
Št. strani:	58 str.
PID:	20.500.12556/RUL-72192
COBISS.SI-ID:	1536485827
Datum objave v RUL:	08.09.2015
Število ogledov:	1628
Število prenosov:	337
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Evaluation of algorithms for speaker diarization in sound recordings
Speaker segmentation (diarisation, diarization) is a process that separates the audio clip in sections regarding the identity of the speakers. Speaker diarization in sound recordings answers the question of who spoke when? This thesis is dedicated to the automatic segmentation of speakers in a variety of sound recordings. We prepare a test data of audio recordings in Slovenian, which are obtained from field recordings. The recordings contain two or more speakers and very often they contain other sounds, silence, overlap between the speakers and the like. We manually build transcriptions for the number of speakers in them and the time interval of the speeches for each speaker which will represent our ground-truth. We run all the algorithms for diarization that we evaluate on this test data. We write a program which takes the results from the algorithms as an input which have different formats and different types of representation, and the results are converted to a common format. We evaluate the accuracy of the algorithms and analyse how well they work in different situations.
Ključne besede:	speaker segmentation, diarization, diarisation, field recordings, speech, algorithm evaluation

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj