Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Razvoj postopka diarizacije govorcev z algoritmi strojnega učenja
ID
Katrašnik, Marko
(
Avtor
),
ID
Štruc, Vitomir
(
Mentor
)
Več o mentorju...
,
ID
Luštrek, Mitja
(
Komentor
)
PDF - Predstavitvena datoteka,
prenos
(4,30 MB)
MD5: 26353D271ED61331852BCE302DD4A948
Galerija slik
Izvleček
Z naraščajočim številom pametnih naprav je spremljanje medosebnih interakcij uporabnikov v raziskovalne namene in za namene pametnega prilagajanja aplikacij vedno bolj enostavno. Veliko koristnih podatkov lahko pridobimo s snemanjem in analizo pogovorov. Med možne načine analize govornih posnetkov se uvrščajo tudi zaznavanje prisotnosti govora, ugotavljanje števila govorcev in določanje segmentov v katerih je govoril posamezen govorec. V ta namen se uporabljata postopka detekcije govora in diarizacije govorcev. V tem diplomskem delu za rešitev problemov detekcije in diarizacije govorcev uporabimo obstoječa orodja in njihovo delovanje prilagodimo našim potrebam. Detektor govora deluje z algoritmom logistične regresije. Detekcija govora predstavlja prvo komponento splošnega modela diarizacije govorcev. Sledita še iskanje mej med segmenti govorcev in združevanje segmentov istega govorca. Pri tem uporabimo pogosto uporabljene metode na podlagi Bayesovega informacijskega kriterija. Za razvoj in testiranje uporabimo obstoječe prosto dostopne zbirke, pripravili pa smo tudi manjšo lastno zbirko posnetkov. Razviti detektor govora dosega povprečno točnost detekcije skoraj 90 % in deluje v realnem času. Rezultati diarizacije govorcev na prosto dostopnih zbirkah so primerljivi s podobnimi postopki iz literature. Na posnetkih iz naše zbirke, ki najbolje predstavljajo zahtevnejši tip posnetkov, za katerega smo postopek razvili, pa od testiranih postopkov edini vrne uporabne rezultate.
Jezik:
Slovenski jezik
Ključne besede:
detekcija govora
,
diarizacija govorcev
,
govorne tehnologije
,
strojno učenje
,
značilke
Vrsta gradiva:
Diplomsko delo
Organizacija:
FE - Fakulteta za elektrotehniko
Leto izida:
2019
PID:
20.500.12556/RUL-109299
Datum objave v RUL:
29.08.2019
Število ogledov:
1728
Število prenosov:
261
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
KATRAŠNIK, Marko, 2019,
Razvoj postopka diarizacije govorcev z algoritmi strojnega učenja
[na spletu]. Diplomsko delo. [Dostopano 4 maj 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=109299
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Development of a speaker diarization procedure using machine learning techniques
Izvleček:
With the growing number of smart devices, monitoring interpersonal interactions of users for research purposes and smart app adaptations is becoming increasingly easy. A lot of useful information can be obtained by recording and analysing conversations. When analysing voice recordings details like presence of speech, number of speakers and when and how much each of participants spoke are of interest. For this purpose, voice activity detection and speaker diarization are used. In this thesis, we use existing tools to solve problems of voice activity detection and speaker diarization and adapted them to our needs. The voice activity detector uses a logistic regression algorithm. Voice activity detection is the first component of a general model of speaker diarization. It is followed by the speaker segment boundary detection and the merging of the segments that belong to the same speaker. We use commonly used methods based on the Bayesian information criterion. Existing freely available datasets were used for development and testing, and we also prepared a small collection of our recordings. The voice activity detector that we developed achieves an average accuracy of almost 90 % and can operate in real-time. The results of speaker diarization on freely available datasets are comparable to similar procedures from the literature. On our dataset, which best represents the type of recordings for which we have developed the procedure, our method was the only one from the ones we tested that returned useful results.
Ključne besede:
voice activity detection
,
speaker diarization
,
speech technologies
,
machine learning
,
features
Podobna dela
Podobna dela v RUL:
Iščem podobna dela...
Podobna dela v drugih slovenskih zbirkah:
Nazaj