Prepoznavanje anomalij v avtomatsko ekstrahiranih grafih iz spleta

Safić, Sanil

Podrobno

Prepoznavanje anomalij v avtomatsko ekstrahiranih grafih iz spleta
ID Safić, Sanil (Avtor), ID Žitnik, Slavko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,00 MB)
MD5: 279E7A3C2991A3CF0D34A91B278CB63D

Izvleček

V nalogi je predstavljen sistem za zaznavanje anomalij v avtomatsko ekstrahiranih grafih iz spleta, zgrajen na grafni bazi Neo4j in pravilih v jeziku Cypher. Sistem prepoznava strukturne, atributne in časovne nepravilnosti, kot so nenavadne lastniške strukture, nelogične investicije ter neskladja v datumih dogodkov, rezultate pa semantično preveri z velikim jezikovnim modelom (LLM). Evalvacija na grafu s približno 40 milijoni vozlišč pokaže visoko natančnost pri izbranih pravilih, pomemben vpliv materializiranih povezav na čas izvajanja poizvedb ter zmanjšanje obremenitve ročne validacije (QA). Pristop združuje razložljivost pravil s semantično analizo LLM in predstavlja korak k modularnemu, samoučečemu sistemu za zagotavljanje kakovosti podatkov.

Jezik:	Slovenski jezik
Ključne besede:	Zaznavanje anomalij, grafne podatkovne baze, Neo4j, avtomatska ekstrakcija podatkov
Vrsta gradiva:	Magistrsko delo/naloga
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2026
PID:	20.500.12556/RUL-178466
Datum objave v RUL:	28.01.2026
Število ogledov:	39
Število prenosov:	5
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Anomaly detection in automatically extracted graphs from the web
This thesis presents a system for detecting anomalies in automatically extracted graphs from the web, built on the Neo4j graph database and Cypherbased rules. The system identifies structural, attribute and temporal irregularities— such as unusual ownership structures, illogical investments and inconsistencies in event dates—and semantically validates the results with a Large Language Model (LLM). Evaluation on a graph with approximately 40 million nodes shows high precision for selected rules, a significant impact of materialized relationships on query runtimes, and a reduction of manual quality assurance (QA) workload. The approach combines the interpretability of rules with LLM-based semantic analysis and represents a step towards a modular, self-learning data quality assurance system.
Ključne besede:	Anomaly detection, graph databases, Neo4j, automated data extraction

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj