Podrobno

Avtomatsko generiranje semantičnih podatkovnih shem za nove vire v portalih odprtih podatkov
ID Ilić, Bojan (Avtor), ID Žitnik, Slavko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (466,13 KB)
MD5: 5035F5F3A79D548E7FBEEF4E45A56E06

Izvleček
V magistrskem delu obravnavamo problem avtomatskega generiranja semantičnih podatkovnih shem za nove vire na portalih odprtih podatkov, kjer so podatki pogosto objavljeni v obliki CSV brez standardiziranih tipov in povezav z ontologijami. Razvili smo cevovod CSVSI, ki s pomočjo velikih jezikovnih modelov generira kratke opise stolpcev v skladu s standardom CSVW ter izvede ujemanje z obstoječimi ontologijami. Tako omogočimo prenos dodatnih lastnosti, kot so URI-ji, tipi in omejitve, ter ustvarimo semantično bogatejše sheme. Pristop smo ovrednotili na zbirki Anatomija (OAEI) in na podatkih s portala OPSI. Rezultati kažejo, da metoda dosega primerljive rezultate z orodji AML in LogMap, pri čemer se izkaže za robustnejšo pri nepopolnih shemah. Ugotavljamo, da avtomatsko generiranje semantičnih shem z uporabo velikih jezikovnih modelov in ujemanja ontologij predstavlja pomemben korak k večji interoperabilnosti in ponovni uporabi odprtih podatkov.

Jezik:Slovenski jezik
Ključne besede:avtomatsko generiranje metapodatkov, odprti podatki, OPSI, CKAN, semantični opis, obdelava naravnega jezika
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-174363 Povezava se odpre v novem oknu
COBISS.SI-ID:255188995 Povezava se odpre v novem oknu
Datum objave v RUL:01.10.2025
Število ogledov:264
Število prenosov:56
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Automatic Generation of Semantic Data Schemas in Open Data Portals
Izvleček:
This thesis addresses the problem of automatically generating semantic data schemas for new sources on open data portals, where data are often published in CSV format without standardized types or links to ontologies. We developed the CSVSI pipeline, which uses large language models (LLMs) to generate concise column descriptions compliant with the CSVW standard and performs ontology matching with existing ontologies. This enables the transfer of additional properties such as URIs, data types, and constraints and the creation of semantically richer schemas. We evaluate the approach on the OAEI Anatomy dataset and on datasets from Slovenia’s OPSI portal. The results show performance comparable to AML and LogMap, while exhibiting greater robustness to incomplete schemas. We conclude that automatic generation of semantic schemas using LLMs and ontology matching is an important step toward greater interoperability and reuse of open data.

Ključne besede:automatic metadata generation, open data, OPSI, CKAN, semantic description, natural language processing

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj