Primerjava in merjenje podobnosti med digitalnimi besedili sta ključna za računalniško lingvistiko in obdelavo naravnega jezika. Algoritmi za podobnost se uporabljajo pri iskanju informacij, zaznavanju plagiatorstva, analizi sentimenta in povzemanju besedil. Prispevek predstavlja primerjalno analizo uveljavljenih metod, kot so Levenshteinova razdalja, Jaro-Winkler, SmithWaterman, kosinusna podobnost in N-grami. Ocenjene so glede na teoretične osnove, računsko zahtevnost, učinkovitost in primernost za različna področja. Tradicionalne metode so učinkovite pri zaznavanju napak in leksikalnih razlik, naprednejše pa pri obravnavi semantično bogatih in daljših besedil. Raziskane so tudi možnosti izboljšav z združevanjem pristopov in uporabo metod strojnega učenja. Namen analize je usmerjati uporabo in nadaljnji razvoj teh algoritmov.
|