Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta
ID
MARTIČ, GAŠPER
(
Avtor
),
ID
Žitnik, Slavko
(
Mentor
)
Več o mentorju...
PDF - Predstavitvena datoteka,
prenos
(18,31 MB)
MD5: 137DE7C4759639FDE4928BB0B8FA0BCE
Galerija slik
Izvleček
Namen diplomskega dela je pregledati in ovrednotiti obstoječe metode za avtomatsko ekstrakcijo podatkov s spletnih strani. Tovrstne metode preko analize večjega števila podobnih spletnih strani avtomatsko generirajo ovojnico, ki je sposobna s spletne strani izluščiti podatke, tudi če se struktura strani s časom rahlo spremeni. Rezultati diplomskega dela ponujajo enostaven pregled nad različnimi metodami za pridobivanje podatkov s spletnih strani. To je lahko koristno za uporabnika, ker iz spletne strani izloči moteče oglase in navigacijske menije, ki odvračajo pozornost od vsebine. Kvaliteta posamezne metode se meri v hitrosti in sposobnosti odstranjevanja nerelevantnih podatkov ter ohranjanju tistih, ki so pomembni za dojemanje vsebine. Izvajanje samih metod je avtomatizirano s pomočjo programa v jeziku Python, ki ga lahko poganjamo iz ukazne vrstice. Uporabljani sta obstoječi implementaciji metod RoadRunner in Webstemmer, prikazani pa so rezultati njunega delovanja na petih slovenskih spletnih medijih. Poleg tega je implementirana tudi polavtomatska metoda pridobivanja podatkov s pomočjo ogrodja Scrapy, da lahko vidimo rezultate in kompleksnost v primerjavi s popolnoma avtomatsko metodo.
Jezik:
Slovenski jezik
Ključne besede:
ekstrakcija
,
spletni pajek
,
ovojnica
,
novice
Vrsta gradiva:
Diplomsko delo/naloga
Tipologija:
2.11 - Diplomsko delo
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Leto izida:
2023
PID:
20.500.12556/RUL-144592
COBISS.SI-ID:
144116739
Datum objave v RUL:
02.03.2023
Število ogledov:
1194
Število prenosov:
109
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Comparison of methods for automatic Web data extraction
Izvleček:
The purpose of this thesis is to review and evaluate existing methods for automatic extraction of data from websites. Such methods analyse several similar web pages in order to generate a wrapper that is capable of extracting data from a web page even if the page layout changes slightly. The result of the thesis is a simple overview of various tools for extracting essential data from journalistic articles, which may prove useful to the reader due to the exclusion of bothersome advertisements and links on websites, which distract the reader from the content. The quality of each method is measured in its speed and ability to discard irrelevant data. The execution of the methods is automated with the help of a program in the programming language Python that we can run from the command line. RoadRunner and Webstemmer are the two implemented methods and we evaluate them based on their ability to extract data from five Slovenian media websites.
Ključne besede:
extraction
,
Web crawler
,
wrapper
,
news
Podobna dela
Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:
Nazaj