Ekstrakcija časovnega znanja iz dogodkov v spletnih novicah

Mirčeta, Kristijan

Ekstrakcija časovnega znanja iz dogodkov v spletnih novicah
ID Mirčeta, Kristijan (Avtor), ID Šubelj, Lovro (Mentor) Več o mentorju... Povezava se odpre v novem oknu

URL - Predstavitvena datoteka, za dostop obiščite http://eprints.fri.uni-lj.si/3125/ Povezava se odpre v novem oknu

Izvleček

V diplomskem delu predstavimo sistem Never Ending Language Learner, v nadaljevanju NELL, ki z branjem spleta gradi bazo znanja v obliki konceptov in relacij med njimi. Nekatere relacije so odvisne od časa kar pomeni, da je njihova vrednost lahko drugačna ob dveh trenutkih v času. Takšnim relacijam pravimo časovne relacije. Le-te se naprej delijo na relacije, ki se zgolj zgodijo in na relacije, ki se začnejo in končajo, oziroma časovne relacije z enim kritičnim trenutkom v času in časovne relacije z dvema kritičnima trenutkoma. Kritični trenutek je trenutek ob katerem se vrednost relacije spremeni. Sprememba je lahko začetek, ki je prehod vrednosti iz 0 v 1, konec, ki je prehod vrednosti iz 1 v 0 ali dogodek, ki vrednost spremeni iz 0 v 1 in za tem nazaj iz 1 v 0. Relacije z dvema kritičnima trenutkoma imajo začetek in konec, relacije z enim kritičnim trenutkom pa le dogodek. Sistem NELL ima problem s prepoznavanjem kritičnih trenutkov za relacije kar pomeni, da ne ve kdaj se je neka relacija zgodila oziroma začela ali končala. Splošen problem časovnih relacij je kako pridobiti za relacijo metapodatke o tem kdaj se je zgodila, za relacije z enim kritičnim trenutkom oziroma kdaj se je začela in končala za relacije z dvema trenutkoma. V diplomskem delu se ukvarjamo s specifičnim podproblemom problema časovnih relacij, kako najti besedila, ki vsebujejo informacije o kritičnih trenutkih. Predstavimo sistem EventRegistry, ki nabira časopisne članke iz različnih virov in jih grupira v dogodke, ki jih ponuja kot podatke, ki opisujejo karkoli značilnega kar se je zgodilo. Nekateri od teh dogodkov vsebujejo informacije o kritičnih trenutkih. Predlagamo splošen sistem za odkrivanje dogodkov, ki vsebujejo informacijo o kritičnih trenutkih za relacije z dvema. Sistem deluje na podlagi klasifikacijskih algoritmov, ki z uvrščanjem ločijo dogodke z informacijo o kritičnih trenutkih od drugih. Ker klasifikacijski algoritmi zahtevajo označene podatke, označevanje podatkov pa je izjemno drago in zamudno delo, predlagan sistem nadgradimo še s strategijami aktivnega učenja, ki poskušajo zmanjšati ceno označevanja podatkov. Razvit sistem simuliramo in analiziramo na primeru časovne relacije ImaZakonca(x,y) in poročamo o njegovi uspešnosti. Za konkretno relacijo se izkaže, da je problem dobro rešljiv, saj v klasifikaciji dosežemo AUC blizu 0.90. Ker podatke označimo tako, da z njimi na enostaven način lahko odkrijemo tudi tip kritičnega trenutka v času, ki ga dogodek vsebuje, predstavimo rezultate tudi za ta podproblem, na primeru konkretne relacije ImaZakonca(x,y). Tudi za ta podproblem se izkaže, da je s klasifikacijo dobro rešljiv, saj prav tako dosežemo AUC blizu 0.90.

Jezik:	Neznan jezik
Ključne besede:	strojno učenje, odkrivanje znanj v besedilih, aktivno učenje, podatkovno rudarjenje
Vrsta gradiva:	Diplomsko delo/naloga
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2015
PID:	20.500.12556/RUL-72619
COBISS.SI-ID:	1536520899
Datum objave v RUL:	29.09.2015
Število ogledov:	1632
Število prenosov:	193
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Neznan jezik
Naslov:	Extracting temporal knowledge from events in news articles
In this thesis we describe the system Never Ending Language Learner referred to as NELL that builds a knowledge base in the form of concepts connected by relations, by reading the web. Some relations are dependent on time, which means that their value may be different at two moments in time. We call them temporal relations. These are further divided into relations that happen and relations that start and end or equivalently, relations with one critical moment in time and relations with two critical moments. A critical moment is a moment at which the value of the relation changes. The change may be the beginning, which is the transition from 0 to 1, the ending, which is the transition from 1 to 0, or the event, which changes the value of the relation from 0 to 1 and then quickly back from 1 to 0. Relations with two critical moments in time have a beginning and an end, whereas relations with one such moment only have a happening. The system NELL has a problem with the recognition of such critical moments for relations, which means that it doesn't know when some relation began or ended, or in the case of relations with one critical moment, happened. The general problem of temporal relations asks how to get metadata for a relation, about when it happened for relations with one critical moment in time, and when it began and ended for the relations with two. In the thesis we address the specific subproblem of the problem of temporal relations that asks how to find text that contains information about critical moments. We describe the system EventRegistry, which collects news paper articles from various sources and groups them into events, which are represented as data about various significant happenings. Some of these events contain information about critical moments in time. We propose a general system for detecting events, which contain information about critical moments for relations with two of them. The system is based on classification algorithms, which, by classification, separate the events that contain information about critical moments from the others. Because classification algorithms demand labeled data, and labeling is extremely costly and slow, we improve the proposed system with active learning strategies, which try to reduce the cost of labeling data. We simulate and analyze the proposed system for the case of the relation HasSpouse(x,y) and report the success of it's performance. For this concrete relation it turns out that the problem is very solvable, as we report AUC near 0.90 for the classification. Because the data is labeled in a way that allows us to also detect the type of critical moment contained in the event in a simple way, we present the results for this subproblem as well, for the concrete relation HasSpouse(x,y). This problem also turns out to be highly solvable by classification, as we also achieve AUC near 0.90.
Ključne besede:	machine learning, text mining, active learning, data mining

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj