Avtomatsko napovedovanje lastnosti podjetja na podlagi njihove spletne strani

Anderle, Žan

Avtomatsko napovedovanje lastnosti podjetja na podlagi njihove spletne strani
ID Anderle, Žan (Avtor), ID Demšar, Janez (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,00 MB)
MD5: 06E611D6AE2AC7A685CE9E845069572F
PID: 20.500.12556/rul/17a248c1-fcba-4209-9f4f-b367de3e35ec

Izvleček

V magistrskem delu obravnavamo problem napovedovanja lastnosti (panoga, starost, število zaposlenih) podjetja na podlagi njihovega spletnega mesta. Predlagamo več napovednih modelov, ki spletno mesto obravnavajo na različne načine. V delu pokažemo kako iz spletnega mesta izluščiti tiste značilke, ki bodo za neko specifično napoved uporabne. V našem primeru se za najbolj uporabno izkaže besedilo celotnega spletnega mesta ter besedilo, ki ga najdemo v meta oznakah. S tem dobimo dva ločena napovedna modela, ki ju lahko združimo v eno združeno napoved. Tak združevalni napovedni model smo uporabili pri napovedovanju panoge podjetja, kjer je dosegel zadovoljive rezultate. Obenem smo preizkusili tudi napovedovanje na podlagi meta značilk spletnega mesta, s katerimi lahko spletno mesto opišemo na drugačen način in se s tem izognemo računsko zahtevni obdelavi besedil. Ta model smo preizkusili na problemu napovedovanja starosti in števila zaposlenih v podjetju. Z modelom nismo dosegli zadovoljivih rezultatov. V delu raziščemo tudi problematiko primernega nabora podatkov za razvijanje napovednih modelov, ki se za napoved zanašajo na spletna mesta. Ugotovimo, da je ta problematičen korak ključen za doseganje boljših rezultatov.

Jezik:	Slovenski jezik
Ključne besede:	klasifikacija spletnih mest, strojno učenje, informacije spletnih strani
Vrsta gradiva:	Magistrsko delo/naloga
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2017
PID:	20.500.12556/RUL-91343
Datum objave v RUL:	28.03.2017
Število ogledov:	1064
Število prenosov:	203
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Automatic prediction of company's characteristics based on their website
Our main objective is predicting company's characteristics (industry, age, number of employees) based on the company's website. We present different prediction models which all extract information from the website in distinct ways. We show what features to extract from a website, that will be useful for a specific prediction. We find that website's content text and meta tags text are often the most relevant. By using these texts we get two separate prediction models and we can also use them in an ensemble model. The latter was used in predicting the company's industry and achieved satisfactory results. We also tested using alternative ways to describe a website by using different meta data that we can extract from a website. This is useful when it is necessary to avoid the computational cost of performing text analysis. We used a model using these features in predicting the age and number of employees. The model was not particularly successful. We also discuss the problem of an appropriate dataset needed for developing aformentioned prediction models. We find that solving this problem is crucial for achieving better results.
Ključne besede:	website classification, machine learning, website information

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj