Napovedovanje kategorij novičarskih člankov s pomočjo meta-podatkov s spleta : diplomsko delo

Vučko, Žiga

Podrobno

Napovedovanje kategorij novičarskih člankov s pomočjo meta-podatkov s spleta : diplomsko delo
ID Vučko, Žiga (Avtor), ID Šubelj, Lovro (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,60 MB)
MD5: 66CD8FCB67918F13881C353A25376EAB
PID: 20.500.12556/rul/0af2a028-53b8-41f3-9992-6e7348c5ec56

Izvleček

Področje strojnega učenja, ki se ukvarja z odkrivanjem znanj iz besedil se dandanes razvija z izjemno hitrostjo in kot tako ponuja številne priložnosti. Na tem področju deluje tudi Laboratorij za umetno inteligenco Instituta Jožef Stefan, kjer razvijajo sistem Event Registry, ki v realnem času zbira spletne novičarske članke, jih združuje v dogodke in iz njih ekstrahira pomembne informacije. Komponenta sistema, ki uvršča članke v kategorije še ni dodelana. Kot odgovor na to, smo se v diplomskem delu lotili nadgradnje referenčnega modela. Rezultati našega dela so bili pozitivni, saj smo izboljšali napovedno točnost klasifikacije poljubnih novičarskih člankov v eno izmed predhodno definiranih kategorij. Tekom procesa učenja smo preverili vpliv različnih oblik meta-podatkov na napovedno točnost modela, pri čimer je bilo naše ključno zanimanje usmerjeno v meta-podatke pridobljene s pomočjo sistema Never-Ending Language Learner, ki ga razvijajo na Univerzi Carnegie Mellon. Ugotovili smo, da slednji pozitivno vplivajo na uspešnost napovedovanja v kombinaciji z ostalimi meta-podatki. Za potrebe učenja smo uporabili algoritme logistična regresija, metoda podpornih vektorjev, naključni gozdovi in k-najbližjih sosedov. Izkazalo se je, da sta za gradnjo optimalnega modela najbolj primerna prva dva algoritma. Obenem smo preizkusili tudi več pristopov k aktivnemu učenju, s katerimi lahko poenostavimo, pocenimo in pohitrimo proces ročnega označevanja novih primerov. Vsi preizkušeni pristopi so ponudili pozitiven rezultat, za najboljšega pa se je izkazal pristop, ki kombinira mero negotovosti napovedi in koreliranosti med učnimi primeri.

Jezik:	Slovenski jezik
Ključne besede:	strojno učenje, odkrivanje znanj iz besedil, klasifikacija, Event Registry, Never-Ending Language Learner, aktivno učenje
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Založnik:	[Ž. Vučko]
Leto izida:	2015
PID:	20.500.12556/RUL-72430
COBISS.SI-ID:	1536529859
Datum objave v RUL:	17.09.2015
Število ogledov:	2204
Število prenosov:	499
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Predicting categories of news articles using meta-data from the Web
Text mining, a field of machine learning that deals with the discovery of knowledge from text, is evolving rapidly. This fact has been recognized by the Artificial Intelligence Laboratory of Jožef Stefan Institute, which is developing a system called Event Registry that collects news articles from the Web in real-time, detects events therein and extracts relevant information. The component of the system which deals with the classification of articles into categories has not yet been fully developed. In a response to this, in our diploma thesis, we tried to upgrade a reference model. The results of our work have been positive, since we improved the predictive accuracy of classification of arbitrary news articles into one of the categories of our predefined taxonomy. During the learning phase, we examined the impact of various forms of meta-data on the predictive accuracy of the model, where we focused mainly on meta-data obtained from Never-Ending Language Learner developed at Carnegie Mellon University. We assessed that the latter have a positive effect on the performance of the model if they are used in combination with other meta-data. For the purposes of learning we used different algorithms such as logistic regression, support vector machine, random forests and k-nearest neighbors. It turned out that the first two algorithms are the most appropriate for building the optimal predictive model. At the same time, we also tested several approaches to active learning, by which we can simplify and speed up the process of manual labeling of new articles. All of them have produced a positive result, while approach that combines uncertainty of prediction with correlation between learning instances proved to be the best.
Ključne besede:	machine learning, text mining, classification, Event Registry, Never-Ending Language Learner, active learning

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj