Razvrščanje besed s pomočjo gručenja : magistrsko delo

Arčon, Tjaša

Repository of the University of Ljubljana

Details

Razvrščanje besed s pomočjo gručenja : magistrsko delo
ID Arčon, Tjaša (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

, ID Krek, Simon (Comentor)

PDF - Presentation file, Download (4,46 MB)
MD5: B470FDED5AB0AD1DEA60E713CA82F3A4

Abstract

Opisovanje temeljnih značilnosti jezika in s tem povezano oblikovanje tradicionalnih slovničnih pojmov se je skozi zgodovino spreminjalo v skladu z različnimi jezikoslovnimi tradicijami in glede na značilnosti posameznega jezika, vendar pa sta starogrška in latinska tradicija še danes podlaga za določanje in označevanje besednih vrst v večini jezikov. Tako so nabori besednih vrst in s tem glavne lastnosti jezikov pod vplivom uveljavljenih, zgodovinsko pogojenih jezikovnih pojmov in se ne naslanjajo izključno na strukturo in organizacijo jezika, ki je dejansko v rabi, kar je lahko v mnogih jezikih, med njimi tudi v slovenščini, problematično. V magistrski nalogi razvrstimo besede v skupine na osnovi njihove podobnosti, ki se izraža v dejansko rabljenem jeziku. Analizo besed izvedemo na slovenskem jezikovnem korpusu. Kot orodje za razvrščanje besed uporabimo nenadzorovano strojno učenje, torej sistemu ne podamo nobenega dodatnega jezikovnega znanja o besednih vrstah, ampak ta besede razvršča na osnovi njihove podobnosti v korpusu, saj se želimo v čim večji meri izogniti vplivu uveljavljenih kategorizacij besed na razvrščanje. Za razvrščanje besed preizkusimo različne postopke gručenja. Kot vhod v postopke gručenja nam služi podobnost med besedami, ki jo izračunamo na podlagi oblikoslovne, distribucijsko-skladenjske in semantične narave značilnosti posameznih besed v korpusu. Uporabimo različne kombinacije teh kriterijev. Sledi interpretacija dobljenih razvrstitev besed in njihova primerjava z že uveljavljenimi kategorizacijami besednih vrst. S postopki strojnega učenja ugotovimo, da sta za razvrščanje besed izmed treh uporabljenih algoritmov gručenja najprimernejše delitveno gručenje (postopki gručenja k-medoidov in k-voditeljev) in aglomerativno hierarhično gručenje z uporabo Wardove metode, medtem ko je gručenje DBSCAN manj primerno. Nadaljnja analiza nam razkrije, da so pri iskanju podobnosti med besedami v naši nalogi pomembni predvsem distribucijsko-skladenjski in semantični kriteriji, manj oblikoslovni kriteriji. Kljub temu končne razvrstitve besed ocenimo za nezadovoljive, saj nam optimalno število gruč in dobljeni nabori besed pokažejo precej samosvojo naravo združevanja v gruče v primerjavi z uveljavljenimi kategorizacijami, s čimer ne moremo zadovoljivo pojasniti, katere besede so si v slovenščini podobne in katera uveljavljena kategorizacija je najbližja razvrstitvi na osnovi dejanske rabe besed v besedilu. Čeprav rezultati ne privedejo do zaključkov, s katerimi bi lahko dodatno razjasnili združevanje besed v slovenščini in tako prispevali k rešitvi problema neenotnosti kategorizacije besednih vrst, nam ugotovitve služijo kot napotek za nadaljnje raziskovanje.

Language:	Slovenian
Keywords:	Jezikoslovje, Korpusi, Besedne vrste, gručenje, jezikovne značilnosti, podobnost, posploševanje, strojno učenje
Work type:	Master's thesis/paper
Typology:	2.09 - Master's Thesis
Organization:	PEF - Faculty of Education
Place of publishing:	Ljubljana
Publisher:	T. Arčon
Year:	2024
Number of pages:	VII, 65 str.
PID:	20.500.12556/RUL-162766
UDC:	81'23(043.2)
COBISS.SI-ID:	209435651
Publication date in RUL:	27.09.2024
Views:	673
Downloads:	221
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Word categorization using clustering
Throughout history, there have been numerous attempts to determine the key properties of language in accordance with a particular linguistic tradition and the distinctive characteristics of the individual language under scrutiny. However, most languages still base their word class categories on ancient Greek and Latin traditions, so that word class systems and fundamental linguistic properties are influenced by historically established linguistic concepts rather than solely by the structure and organization of language as documented from actual use, which could be viewed as problematic in many languages, including Slovene. The present study focuses on grouping words into clusters based on their similarity in real-life language use. To avoid the influence of established word categorizations on the research outcomes, a Slovene language corpus is analysed with the help of unsupervised machine learning. The system is not provided with any additional linguistic knowledge on parts of speech; instead, it groups words into clusters based merely on their similarity within the corpus. Different clustering algorithms are tested. Word similarity, based on morphological, distributional-syntactic, and semantic features of individual words in the corpus, is used as input data. Different combinations of these criteria are employed. The resulting word clusters are interpreted and compared with traditional word class categorizations. With the help of machine learning it is concluded that partitional clustering (i.e., k-means and k-medoids methods) and agglomerative hierarchical clustering using Ward’s method are the most suitable for grouping words into clusters, while DBSCAN clustering is less appropriate. In addition, it is established that distributional-syntactic and semantic criteria are relevant for identifying word similarity, whereas morphological criteria seem less important. Nevertheless, the results are considered unsatisfactory, as both the optimal number of clusters and the word sets obtained exhibit a rather idiosyncratic nature when compared to historically established word categorizations in Slovene. This makes it difficult to sufficiently explain which words are similar in Slovene and which established categorization best matches the groupings based on the actual word use in the corpus. Although the results of the study neither provide meaningful conclusions about word groupings nor resolve the inconsistencies in Slovene word categorizations, they nonetheless offer valuable insights that can serve as guidelines for future research.
Keywords:	word classes, clustering, linguistic features, similarity, generalization, machine learning

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents