Spletni pajek za iskanje slovenskih avdio in video vsebin s transkripcijami : diplomsko delo

Čoha, Špela

Spletni pajek za iskanje slovenskih avdio in video vsebin s transkripcijami : diplomsko delo
ID Čoha, Špela (Avtor), ID Bajec, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (2,39 MB)
MD5: BEB86102A8D8C0979F66EE52316F02F9

Izvleček

V Sloveniji primanjkuje gradiva za učenje govornih modelov, kar predstavlja oviro za nadaljnji razvoj tega področja. Rešitev predstavlja razvoj orodja za avtomatizirano iskanje zvočnega gradiva. Diplomsko delo obravnava izbiro orodja Scrapy za spletno pajkanje, napisanega v Pythonu in njegov razvoj. Spletni pajek je program ali programska skripta, ki avtomatizirano brska po spletu in vsebino shranjuje. Cilj našega pajka je iskanje avdio in video virov v slovenskem jeziku. Pri razvoju smo poudarek dali tudi na skladnost z zakonodajo in etičnimi smernicami. Poleg tega smo se poglobili v razvoj skripte za iskanje transkripcij posnetkov. Raziskovanje temelji na deskriptivni metodi za predstavitev že obstoječih orodij za spletno pajkanje. Uporabljen je pregled pravnih aktov. Osredotočili smo se na Zakon o avtorskih in sorodnih pravicah ter Splošno uredbo o varstvu podatkov. Preučena je bila literatura o etičnih smernicah pajkanja, načinih vključevanja avdio in video vsebin na spletnih straneh ter načinih iskanja podobnosti med besedili. Rezultati končnega testiranja so pokazali, da lahko spletni pajek uspešno pridobiva večje količine avdio in video virov. Od tega je 63,6 % posnetkov bilo v razločnem slovenskem govoru. Povzamemo lahko, da tudi skripta za iskanje transkripcij uspešno deluje. 16 posnetkom je bila najdena transkripcija s stopnjo podobnosti večjo od 0,9. Dokazali smo, da je z uporabo spletnih pajkov možno avtomatizirati pridobivanje zvočnih posnetkov. Diplomsko delo prispeva k napredku na področju slovenskih govornih tehnologij, saj nakaže kako na hitrejši in enostavnejši način nabrati velike količine zvočnega gradiva. Prav tako navede pogoje, kako to narediti zakonito in na prijazen način do spletnih strežnikov.

Jezik:	Slovenski jezik
Ključne besede:	spletni pajek, pajkanje, Scrapy, Python, transkripcije, zvočno gradivo
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FU - Fakulteta za upravo
Kraj izida:	Ljubljana
Založnik:	[Š. Čoha]
Leto izida:	2024
Št. strani:	XI, 46 str.
PID:	20.500.12556/RUL-160902-4268e180-1036-059f-50d5-d37cfd4979f5
UDK:	004.775(497.4)(043.2)
COBISS.SI-ID:	206468355
Datum objave v RUL:	05.09.2024
Število ogledov:	146
Število prenosov:	60
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Web crawler for searching Slovenian audio and video content with transcripts
In Slovenia, there is a shortage of learning material for training speech models, which poses a barrier to the further development of this field. The solution lies in the development of a tool for the automated retrieval of audio material. This thesis discusses the selection of the Scrapy tool for web crawling, written in Python, and its development. A web crawler is a program or script that automatically browses the web and stores its content. The goal of our crawler is to search for audio and video resources in the Slovenian language. During development, we also focused on compliance with legal and ethical guidelines. Additionally, we delved into the development of a script for searching for transcriptions of recordings. The research is based on the descriptive method to present existing tools for web crawling. A review of legal acts was conducted, focusing on the Copyright and Related Rights Act and the General Data Protection Regulation. We also examined literature on ethical guidelines for web crawling, methods of embedding audio and video content on web pages and methods of finding similarities between texts. The results of the final testing showed that the web crawler can successfully retrieve large quantities of audio and video resources. Of these, 63,6 % of the recordings were in distinct Slovenian speech. We can conclude that the script for searching for transcriptions also works successfully. Transcriptions with a similarity score greater than 0,9 were found for 16 recordings. We have demonstrated that using web crawlers can automate the retrieval of audio recordings. This thesis contributes to the advancement of Slovenian speech technologies, as it indicates how to collect large quantities of audio material more quickly and easily. It also outlines the conditions for doing so legally and in a server friendly manner.
Ključne besede:	web crawler, crawling, Scrapy, Python, transcripts, audio material

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj