izpis_h1_title_alt

Razvoj postopka diarizacije govorcev z algoritmi strojnega učenja
ID Katrašnik, Marko (Avtor), ID Štruc, Vitomir (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Luštrek, Mitja (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (4,30 MB)
MD5: 26353D271ED61331852BCE302DD4A948

Izvleček
Z naraščajočim številom pametnih naprav je spremljanje medosebnih interakcij uporabnikov v raziskovalne namene in za namene pametnega prilagajanja aplikacij vedno bolj enostavno. Veliko koristnih podatkov lahko pridobimo s snemanjem in analizo pogovorov. Med možne načine analize govornih posnetkov se uvrščajo tudi zaznavanje prisotnosti govora, ugotavljanje števila govorcev in določanje segmentov v katerih je govoril posamezen govorec. V ta namen se uporabljata postopka detekcije govora in diarizacije govorcev. V tem diplomskem delu za rešitev problemov detekcije in diarizacije govorcev uporabimo obstoječa orodja in njihovo delovanje prilagodimo našim potrebam. Detektor govora deluje z algoritmom logistične regresije. Detekcija govora predstavlja prvo komponento splošnega modela diarizacije govorcev. Sledita še iskanje mej med segmenti govorcev in združevanje segmentov istega govorca. Pri tem uporabimo pogosto uporabljene metode na podlagi Bayesovega informacijskega kriterija. Za razvoj in testiranje uporabimo obstoječe prosto dostopne zbirke, pripravili pa smo tudi manjšo lastno zbirko posnetkov. Razviti detektor govora dosega povprečno točnost detekcije skoraj 90 % in deluje v realnem času. Rezultati diarizacije govorcev na prosto dostopnih zbirkah so primerljivi s podobnimi postopki iz literature. Na posnetkih iz naše zbirke, ki najbolje predstavljajo zahtevnejši tip posnetkov, za katerega smo postopek razvili, pa od testiranih postopkov edini vrne uporabne rezultate.

Jezik:Slovenski jezik
Ključne besede:detekcija govora, diarizacija govorcev, govorne tehnologije, strojno učenje, značilke
Vrsta gradiva:Diplomsko delo
Organizacija:FE - Fakulteta za elektrotehniko
Leto izida:2019
PID:20.500.12556/RUL-109299 Povezava se odpre v novem oknu
Datum objave v RUL:29.08.2019
Število ogledov:1484
Število prenosov:233
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Development of a speaker diarization procedure using machine learning techniques
Izvleček:
With the growing number of smart devices, monitoring interpersonal interactions of users for research purposes and smart app adaptations is becoming increasingly easy. A lot of useful information can be obtained by recording and analysing conversations. When analysing voice recordings details like presence of speech, number of speakers and when and how much each of participants spoke are of interest. For this purpose, voice activity detection and speaker diarization are used. In this thesis, we use existing tools to solve problems of voice activity detection and speaker diarization and adapted them to our needs. The voice activity detector uses a logistic regression algorithm. Voice activity detection is the first component of a general model of speaker diarization. It is followed by the speaker segment boundary detection and the merging of the segments that belong to the same speaker. We use commonly used methods based on the Bayesian information criterion. Existing freely available datasets were used for development and testing, and we also prepared a small collection of our recordings. The voice activity detector that we developed achieves an average accuracy of almost 90 % and can operate in real-time. The results of speaker diarization on freely available datasets are comparable to similar procedures from the literature. On our dataset, which best represents the type of recordings for which we have developed the procedure, our method was the only one from the ones we tested that returned useful results.

Ključne besede:voice activity detection, speaker diarization, speech technologies, machine learning, features

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj