Inteligentni pomočnik za pridobivanje delno-strukturiranih spletnih podatkov

ADŽIČ, NIK

Inteligentni pomočnik za pridobivanje delno-strukturiranih spletnih podatkov
ID ADŽIČ, NIK (Author), ID Lavbič, Dejan (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (11,61 MB)
MD5: E17C6A27AF275F0DDA2A956FCF4609A3
PID: 20.500.12556/rul/58dc7866-2b7e-4ec1-b223-66c9a5b42810

Abstract

V pregledani literaturi nismo zasledili, da bi obstajal pristop, s pomočjo katerega bi lahko pretvorili podatke iz delno strukturiranih (spletne strani) ali nestrukturiranih spletnih virov v strukturirano RDF obliko in posledično integracijo v Linked Data oblak. Zato smo si postavili cilj izdelati inteligetnega pomočnika za pridobivanje delno strukturiranih spletnih podatkov. Ta inteligentni pomočnik bi določene spletne podatke samodejno prepoznal in jih označil, nekatere dodatne spletne podatke pa bi lahko po potrebi označil poslovni uporabnik brez zahtevanega tehničnega znanja, in že bi imeli pripravljeno ovojnico za luščenje teh spletnih podatkov. Implementirali smo prototip, ki s pomočjo posebnih algoritmov samodejno identificira glavni iskalni obrazec, ponovljene zadetke na spletni strani, podatke znotraj identificiranih zadetkov in podrobnosti posameznega zadetka, omogoča pa po potrebi dodatno označevanje podatkov in samodejno identificiranje imena podatka, prav tako pa uporabniku omogoča prikaz in izvoz teh podatkov v strukturirano RDF obliko. Inteligentni pomočnik omogoča tudi luščenje iz zelo dinamčnih spletnih strani (spletne strani, ki vsebujejo veliko JavaScripta in AJAX-a), kjer imajo podobni pristopi precej težav. Delovanje inteligetnega pomočnika smo preverili tako, da smo poskusili izluščiti podatke iz čim več različnih spletnih strani, ki so zelo dinamične, statične, spletne strani zavarovane, proti luščenju ipd. Ugotovili smo, da ima pred ostalimi pristopi prednost v tem, da se na zelo dinamičnih straneh obnese precej bolje kot drugi in da omogoča eksplicitno pretvorbo podatkov v četrto oz. celo v peto stopnjo na petstopenjski Linked Data lestvici, kjer drugi pristopi v večini primerov dosežejo le tretjo stopnjo. Prav tako pa s pomočjo predlaganega algoritma samodejno identificira ponavljajoče zadetke na spletni strani, kar je ena izmed funkcionalnosti, ki jo večina drugih pristopov ne ponuja.

Language:	Slovenian
Keywords:	inteligentni pomočnik, delno strukturirani spletni podatki, RDF, Linked Data oblak, pridobivanje podatkov, spletne strani, spletni viri
Work type:	Master's thesis/paper
Organization:	FRI - Faculty of Computer and Information Science
Year:	2016
PID:	20.500.12556/RUL-91242
Publication date in RUL:	27.03.2017
Views:	1342
Downloads:	484
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Intelligent assistant for extracting semi-structured web data
In the revised literature we have not identified any existing approach, which could convert data from semi-structured (websites) or unstructured web sources to the RDF form and consequently integrate into a Linked Data cloud. Therefore, our motivation and objective was to develop intelligent assistant for extracting semi-structured web data. This intelligent assistant should automatically identify and select part of web data, some of those web data should be selected by business user without any technical skills and we have automatically prepared wrapper for extracting these web data. We implemented the prototype, which automatically identifies main search form, repeated results with specific algorithms on the website, identifies data inside these results and their details data. It also allows additional selecting data and automatically propose name of those data. With intelligent assistant we can also export data to the RDF form. Intelligent assistant allows us extracting data from very dynamic websites (websites with many lines of JavaScript and AJAX code), where similar approaches have many issues. We have evaluated the functioning of intelligent assistant in such a way that we tried to extract web data from many different websites. As different websites we consider very dynamic, static and secured against extracting websites, etc. We have found out that our approach has advantages over others in extracting web data from very dynamic websites and it allows explicit conversion of web data in the forth or fifth level on five star Linked Data ranking, where others in most cases convert web data in third level only. Besides that it allows automatic identification of repeated results on website with specific algorithm, which is one of the features of our approach and most of others do not offer this option.
Keywords:	intelligent assistant, semi-structured web data, RDF, Linked Data cloud, extracting data, websites, web sources

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents