Spletni pajek za iskanje slovenskih avdio in video vsebin s transkripcijami : diplomsko delo

Čoha, Špela

Repository of the University of Ljubljana

Details

Spletni pajek za iskanje slovenskih avdio in video vsebin s transkripcijami : diplomsko delo
ID Čoha, Špela (Author), ID Bajec, Marko (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (2,39 MB)
MD5: BEB86102A8D8C0979F66EE52316F02F9

Abstract

V Sloveniji primanjkuje gradiva za učenje govornih modelov, kar predstavlja oviro za nadaljnji razvoj tega področja. Rešitev predstavlja razvoj orodja za avtomatizirano iskanje zvočnega gradiva. Diplomsko delo obravnava izbiro orodja Scrapy za spletno pajkanje, napisanega v Pythonu in njegov razvoj. Spletni pajek je program ali programska skripta, ki avtomatizirano brska po spletu in vsebino shranjuje. Cilj našega pajka je iskanje avdio in video virov v slovenskem jeziku. Pri razvoju smo poudarek dali tudi na skladnost z zakonodajo in etičnimi smernicami. Poleg tega smo se poglobili v razvoj skripte za iskanje transkripcij posnetkov. Raziskovanje temelji na deskriptivni metodi za predstavitev že obstoječih orodij za spletno pajkanje. Uporabljen je pregled pravnih aktov. Osredotočili smo se na Zakon o avtorskih in sorodnih pravicah ter Splošno uredbo o varstvu podatkov. Preučena je bila literatura o etičnih smernicah pajkanja, načinih vključevanja avdio in video vsebin na spletnih straneh ter načinih iskanja podobnosti med besedili. Rezultati končnega testiranja so pokazali, da lahko spletni pajek uspešno pridobiva večje količine avdio in video virov. Od tega je 63,6 % posnetkov bilo v razločnem slovenskem govoru. Povzamemo lahko, da tudi skripta za iskanje transkripcij uspešno deluje. 16 posnetkom je bila najdena transkripcija s stopnjo podobnosti večjo od 0,9. Dokazali smo, da je z uporabo spletnih pajkov možno avtomatizirati pridobivanje zvočnih posnetkov. Diplomsko delo prispeva k napredku na področju slovenskih govornih tehnologij, saj nakaže kako na hitrejši in enostavnejši način nabrati velike količine zvočnega gradiva. Prav tako navede pogoje, kako to narediti zakonito in na prijazen način do spletnih strežnikov.

Language:	Slovenian
Keywords:	spletni pajek, pajkanje, Scrapy, Python, transkripcije, zvočno gradivo
Work type:	Bachelor thesis/paper
Typology:	2.11 - Undergraduate Thesis
Organization:	FU - Faculty of Administration
Place of publishing:	Ljubljana
Publisher:	[Š. Čoha]
Year:	2024
Number of pages:	XI, 46 str.
PID:	20.500.12556/RUL-160902
UDC:	004.775(497.4)(043.2)
COBISS.SI-ID:	206468355
Publication date in RUL:	05.09.2024
Views:	465
Downloads:	143
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Web crawler for searching Slovenian audio and video content with transcripts
In Slovenia, there is a shortage of learning material for training speech models, which poses a barrier to the further development of this field. The solution lies in the development of a tool for the automated retrieval of audio material. This thesis discusses the selection of the Scrapy tool for web crawling, written in Python, and its development. A web crawler is a program or script that automatically browses the web and stores its content. The goal of our crawler is to search for audio and video resources in the Slovenian language. During development, we also focused on compliance with legal and ethical guidelines. Additionally, we delved into the development of a script for searching for transcriptions of recordings. The research is based on the descriptive method to present existing tools for web crawling. A review of legal acts was conducted, focusing on the Copyright and Related Rights Act and the General Data Protection Regulation. We also examined literature on ethical guidelines for web crawling, methods of embedding audio and video content on web pages and methods of finding similarities between texts. The results of the final testing showed that the web crawler can successfully retrieve large quantities of audio and video resources. Of these, 63,6 % of the recordings were in distinct Slovenian speech. We can conclude that the script for searching for transcriptions also works successfully. Transcriptions with a similarity score greater than 0,9 were found for 16 recordings. We have demonstrated that using web crawlers can automate the retrieval of audio recordings. This thesis contributes to the advancement of Slovenian speech technologies, as it indicates how to collect large quantities of audio material more quickly and easily. It also outlines the conditions for doing so legally and in a server friendly manner.
Keywords:	web crawler, crawling, Scrapy, Python, transcripts, audio material

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents