Učinkovito preiskovanje polnotekstovnih podatkov v splošnonamenskih podatkovnih sistemih

Štempelj, Blaž

Podrobno

Učinkovito preiskovanje polnotekstovnih podatkov v splošnonamenskih podatkovnih sistemih
ID Štempelj, Blaž (Avtor), ID Kukar, Matjaž (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,24 MB)
MD5: DEE7853CEC4663F5CB5A5F688F6080B1
PID: 20.500.12556/rul/54dbd192-1b64-4a44-8b8b-f6365fa1a888

Izvleček

Cilj diplomske naloge je pregled in vrednotenje možnosti, ki nam ji za delo s teksti v naravnem jeziku ponujajo splošnonamenski sistemi za upravljanje s podatkovnimi bazami. V prvem delu opišemo slovenska korpusa ccKres in ccGigafid, shemo shranjevanja tekstov iz korpusov v SUPB-je MariaDB, PostgreSQL in MongoDB ter polnotekstovnim indeksov v posameznem SUPB-ju. Vendar podpora slovenščini še vedno ni tam kjer bi želeli. MariaDB nam omogoča le definicijo seznama nepomembnih besed, medtem kot pri MongoDB še tega ne moremo narediti. Upanje ponuja PostgreSQL, kjer z izdevalo lastne konfiguracije lahko omogočimo uporabo leksemov in s tem boljše željene rezultate. V drugem delu testiramo performanse SUPB-jev na primeru kolokacije besed, kjer rezultate predstavimo tako tabelarično kot tudi z uporabo grafov. Rezultati pokažejo, da je za kolokacijo besed naša najboljša izbira MongoDB.

Jezik:	Slovenski jezik
Ključne besede:	MySQL, MariaDB, PostgreSQL, MongoDB, polnotekstovno iskanje
Vrsta gradiva:	Diplomsko delo/naloga
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2016
PID:	20.500.12556/RUL-81580
Datum objave v RUL:	18.04.2016
Število ogledov:	1682
Število prenosov:	435
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Efficient full-text search in general-purpose database systems
The goal of the thesis is the review and evaluation of options that database management systems support when working with natural language texts. In the first part we describe the slovenian corpuses ccKres and ccGigafida, the database structure of MariaDB, PostgreSQL, MongoDB and their use of full-text indexes. But the support the slovenian language still isn't all that great. MariaDB supports only the use of stop words, while MongoDB doesn't even support those. With a little work, PostgreSQL enables us to define custom made configurations which enable the use of lexemes and more fine tuned results. In the second part of this thesis we test the performance of each DBMS by using colocation. Results are presented by using tables and graphs. The final results also show that for colocation the best choice is to use MongoDB.
Ključne besede:	MySQL, MariaDB, PostgreSQL, MongoDB, full-text search

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj