izpis_h1_title_alt

Avtomatska ekstrakcija podatkov o zaposlenih s spletišč podjetij
ID Koplan, Matej (Avtor), ID Žitnik, Slavko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (3,86 MB)
MD5: CC58ED01445CC5C3BC7A9C26732FEE53

Izvleček
V tem delu se ukvarjamo s problemom ekstrakcije seznama oseb s poljubnega spletišča. V ta namen implementiramo spletnega pajka za identifikacijo potencialnih podstrani z osebami in ekstraktor podatkov, ki s poljubne spletne strani izvleče podatke o osebah. Pokažemo, da osnovne metode, kot so primerjava imena s seznamom imen, ne dosežejo sprejemljive natančnosti. Pokažemo, da je analiza strukture seznama in prenos odkritega znanja ključna metoda za izboljšavo rezultatov do stopnje, kjer dosežemo sprejemljiv nivo natančnosti. S pomočjo tega pristopa smo izboljšali F1 mero za 50 % na razvojni in za 35 % na skriti testni množici.

Jezik:Slovenski jezik
Ključne besede:splet, ekstrakcija podatkov, avtomatska ekstrakcija podatkov s spleta, fokusirani spletni pajki, strukturirani podatki, nestrukturirani podatki
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2021
PID:20.500.12556/RUL-132403 Povezava se odpre v novem oknu
COBISS.SI-ID:83603971 Povezava se odpre v novem oknu
Datum objave v RUL:25.10.2021
Število ogledov:594
Število prenosov:92
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Automatic extraction of employee data from corporate websites
Izvleček:
In this work we tackle the problem of extracting lists of people from corporate websites. For this purpose we implement a web crawler to identify possible subpages with people and a data extractor, which is designed to work on any website. We show that basic methods, such as matching names from a list, don't reach acceptable accuracy. We show that analysing the structure and transfrering the discovered knowledge of a list is crucial in reaching the required level of accuracy. Using this approach we have improved the score of our final results by 50 % in the development and by 35 % in the hidden test set.

Ključne besede:web, data extraction, automatic web data extraction, focused webcrawlers, structured data, unstructured data

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj