Zagotavljanje nemotene pisne komunikacije med podjetji in strankami je ključnega pomena za uspešno poslovanje. Sestavni del tega je tudi učinkovito upravljanje elektronskih sporočil. Vseeno pa se porablja veliko naporov v velikih podjetjih, da dokumenti najdejo pravega naslovnika oz. pravi oddelek. V zadnjem času se z uvajanjem strojnega učenja lahko tudi to nalogo delno avtomatizira, saj je področje jezikovnih tehnologij tako napredovalo, da lahko tudi iz nestrukturiranega besedila izluščijo bistvo sporočil.
Avtomatizacija takšnih nalog s pomočjo klasifikacije besedil lahko pomaga pri organiziranju velikih količin besedilnih podatkov.
Klasifikacija besedila je podpodročje obdelava naravnega jezika (angl. Natural language processing), katerega namen je določiti najverjetnejšo kategorijo, ki ji vzorec besedila pripada na podlagi njegove vsebine. Na primer, članke po spletu bi lahko razdelili v naslednje kategorije: šport, politika, glasba, izobraževanje itd.
Ta metoda precej poenostavi postopek iskanja in luščenja uporabnih informacij iz besedilnih podatkov.
Klasifikacija besedila ima številne primere uporabe, kot so zaznavanje neželene pošte, klasifikacija e-pošte, razvrščanje dokumentov itd. S svojimi tehnikami se lahko uporablja na različnih področjih, kot so varnostne analize, napovedovanje prihodnjih trendov, izboljšanje uporabniške izkušnje ipd..
Večjezikovna klasifikacija besedil razširja osnovne koncepte enojezikovne klasifikacije besedil. Uporablja se lahko za različne primere uporabe z možnostjo obdelave podatkov v več jezikih. Večjezikovna klasifikacija besedil je na primer uporabna za izvajanje tržnih raziskav na globalni ravni, s čimer se izboljša proces odločanja pri trženju, razvoju izdelkov itd. S samodejnim organiziranjem in kategoriziranjem vsebin, komentarjev itd. se lahko analizirajo nastajajoči trendi in javno mnenje po vsem svetu.
Razvrstitev večjezičnih besedil je lahko omejena z razlikami v slovnici, sintaksi in semantiki med jeziki. Poleg tega usposabljanje večjezikovnega modela zahteva veliko količino podatkov v različnih jezikih, ki pa niso vedno na voljo. To je značilno za jezike, ki imajo manj podatkov, dostopnih za razvoj sistemov umetne inteligence, kot jeziki z velikimi viri podatkov, kot je angleščina. Možna rešitev je vključitev vzporednih korpusov, ki jih je mogoče pridobiti z orodji za prevajanje. Omenjena rešitev bi lahko izboljšala težavo z dostopnostjo podatkov v primerih, ko podatki niso enakomerno razdeljeni med jezike. V bistvu bi lahko razširili obseg modela na razvrščanje besedil v katerem koli ciljnem jeziku tako, da bi ga učili na prevedenih podatkih v tem jeziku. V našem pristopu vključimo preveden korpus v slovenščini, da bi prikazali uporabo vzporednega korpusa, ki ga je mogoče posplošiti na jezike, ki imajo omenjene podatkovne vire.
Za ustvarjanje učinkovitega postopka razvrščanja besedila moramo besedilne informacije pretvoriti v numerične podatke, ki jih modeli strojnega učenja lahko razumejo. Vsakemu vzorcu je dodeljen vektor vložitev, vzorci znotraj iste kategorije pa imajo ponavadi podobne vložitve. Ta podobnost omogoča modelu, da jih združi skupaj in sprejme informirane odločitve o razvrščanju.
Za izračun teh vložitev implementiramo model, znan kot TF-IDF (angl. term Frequency-Inverse Document Frequency). Vsaki besedi je dodeljena vrednost na podlagi pogostosti besede v določenem dokumentu in njene skupne pogostosti v vseh dokumentih. Z uporabo TF-IDF lahko zajamemo pomen besed znotraj vsakega dokumenta in zagotovimo numerično predstavitev, ki zajame bistvo besedila. Ena beseda predstavlja eno značilko v vektorju vložitev. Poleg tega implementiramo tudi alternativni pristop k statističnemu TF-IDF pri izločanju značilk, natančneje, vnaprej naučen model BERT (angl. Bidirectional Encoder Representations from Transformers) z uporabo knjižnice sentence-transformers. S primerjavo obeh tehnik luščenje značilk ocenimo njun vpliv na celotno učinkovitost klasifikacije.
Ocenjujemo izvajanje klasifikacije večjezičnih besedil v tipičnem primeru uporabe: mednarodno podjetje, ki želi izboljšati storitve za stranke. Samodejna kategorizacija in neposredno posredovanje povratnih informacij in zahtev strank v ciljni oddelek lahko skrajšata komunikacijski cevovod in precej pospešita proces komunikacije.
Poleg tega so komentarji in vprašanja strank zelo pomembni za sisteme, ki skrbijo za upravljanje odnosov s strankami (angl. Customer Relationship Management). Samodejno kategoriziranje takih vprašanj omogoča podjetju, da hitro oceni, prilagodi in izboljša svoj proces odločanja ter učinkovito dodeli vire.
V naši raziskavi predstavljamo cevovod za avtomatizacijo kategorizacije elektronske pošte, ki jo poenostavljamo v nalogo klasifikacije besedila. Pri tem, ocenjujemo delovanje dveh klasifikacijskih algoritmov. Logistična regresija (angl. Logistic Regression) prekaša metodo naključnih gozdov (angl. Random Forest) v vseh eksperimentalnih nastavitvah. Pri razvrščanju dvojezičnih besedil logistična regresija pravilno razvrsti 97,6% z vložitvami TF-IDF in 92,7% z uporabo vnaprej naučenih vložitev. Nasprotno pa metoda naključnih gozdov doseže natančnost 93,8% z uporabo vložitev TF-IDF in 90,6% z vnaprej naučenimi vložitvami.
Naši poskusi raziskujejo vpliv uporabe različnih velikosti značilk (angl. n-grams), glede na število besed v eni značilki. S spreminjanjem števila besed v eni značilki analiziramo, kako vključitev različnih besednih kombinacij vpliva na točnost postopka klasifikacije. Ugotovitve kažejo, da so značilke, sestavljene iz ene besede (angl. uni-grams) najbolj informativne za postopek klasifikacije.
Najučinkovitejša služba za stranke lahko takoj zagotovi koristne in natančne odgovore na vprašanja strank. Iz tega razloga predlagamo dodajanje jezikovnih modelov v cevovod. Uporabljajo se pri nalogah, kot so analiza sentimenta, strojno prevajanje, sistemi za vprašanja in odgovori itd. Zmožnosti jezikovnih modelov pridejo do izraza pri nalogah, povezanih s pogosto postavljenimi vprašanji in odgovori. S pomočjo jezikovnih modelov lahko ustvarimo samodejni odgovor na vhodno vprašanje, kar precej pospeši proces komunikacije. Poudariti moramo, da ne ocenjujemo uspešnosti jezikovnih modelov, saj je naš glavni cilj oceniti klasifikacijo dvojezičnih besedil z uporabo korpusa, primernega za takšno nalogo. Kljub temu pa predstavljamo zastavljeno metodologijo.
Kosinusno podobnost (angl. cosine similarity) uporabljamo v procesu iskanja podobnosti, da pridobimo ustrezne dokumente. Vložitve vhodnega vzorca primerjamo z vložitvami vseh učnih vzorcev. S tem identificiramo najbolj podobne dokumente vhodnemu besedilu. Ti dokumenti so nabor informacij za jazikovni model pri ustvarjanju avtomatskih odgovorov. Jezikovni model analizira podani kontekst ter poskuša ustvariti skladen povzetek oz. odgovor, ki zajema ključne informacije, ki so relevantne za vhodno besedilo.
Vendar pa obstaja potencialna omejitev jezikovnih modelov pri ustvarjanju odgovorov, zlasti če pridobivajo kontekst iz različnih jezikov. To vodi do izziva določanja ustreznega jezika za generiranje odgovora. Glede na to, da naš cevovod nima modula za detekcijo jezika in deluje z dvojezičnimi podatki, moramo zagotoviti, da se jezik odgovora ujema z jezikom vhodnega besedila.
Naše ugotovitve kažejo, da za ustvarjanje odgovora ne potrebujemo eksplicitnega znanja ciljnega jezika. To je zato, ker vložitve dejansko ločijo podatke v ločene skupine, kar pomeni, da imajo tudi vzorci v istem izvornem jeziku podobne vložitve. Posledično se jezik pridobljenih podobnih dokumentov ujema z jezikom testnega dokumenta. To pomeni, da v večini primerov lahko uporabimo jezikovne modele za generiranje odgovora in bo ta odgovor v enakem jeziku, kot je bilo zastavljeno vprašanje.
|