Bilingual inquiry classification using cross-lingual word embeddings

TRAJKOVA, ELENA

Repository of the University of Ljubljana

Details

Bilingual inquiry classification using cross-lingual word embeddings
ID TRAJKOVA, ELENA (Author), ID Dobrišek, Simon (Mentor) More about this mentor... This link opens in a new window

, ID Justin, Tadej (Comentor)

PDF - Presentation file, Download (728,36 KB)
MD5: 2218BF5AA15B94FC3E741C060F5E4C39

Abstract

The ability to process diverse textual content is crucial as people communicate and share information across multiple languages. Multilingual text classification allows organizations to effectively analyze and comprehend customer feedback, inquiries, and sentiments expressed in multiple languages. It provides valuable advantages for businesses looking to enhance customer service and optimize their CRM (Customer Relationship Management) systems. By leveraging this capability, enterprises can address a variety of customer needs, providing customized and efficient support in their preferred languages, and at the same time saving costs and optimizing resources. Multilingual text classification presents challenges in representing and analyzing text data from different languages, due to differences in vocabulary, grammar, and semantics. Moreover, uneven data distribution among languages makes training a model more challenging, as some languages face the problem of limited data availability. Cross-lingual word embeddings provide a solution to the aforementioned challenges, as they represent words from different languages in a shared space. With this, we can analyze and classify text in multiple languages more effectively, using a single classification model. In this study, we assess the task of automatically classifying customer inquiries into target departments, such as legal, IT, accounting, etc. We conduct this problem as a bilingual text classification task, using Slovenian and English text data. We develop a pipeline for classifying texts from either English or Slovenian source language. We focus on implementing a parallel corpus and representing both languages in a shared space. With the use of a single but bilingual feature space, we include typical text patterns from both languages. This allows us to classify any incoming text sample without needing information about its source language. The feature space is generated using a statistical feature extraction method, TF-IDF (Term Frequency-Inverse Document Frequency). Alongside TF-IDF, we evaluate a pre-trained sentence-transformers model for extracting the embeddings and provide a side-by-side comparison of the results. We provide a qualitative and quantitative comparison of two classification algorithms, Logistic Regression and Random Forest, in bilingual and monolingual experimental scenarios. Logistic Regression outperforms Random Forest in all experimental setups. In classifying the bilingual data, Logistic Regression correctly classifies 97,6% with TF-IDF embeddings and 92,7% using pre-trained embeddings. In contrast, Random Forest achieves an accuracy of 93,8% using TF-IDF embeddings and 90,6% with the pre-trained embeddings. Additionally, we suggest incorporating Large Language Models (LLMs) into the workflow to provide an immediate response. This study focuses on evaluating the bilingual text classification using a suitable dataset, so we do not conduct a performance evaluation of the LLM itself. However, we propose utilizing the capabilities of LLM in Q\&A tasks. In this context, key information needed to generate the response is provided to the LLM. We use the training documents as a search database for defining the prompt context. Using cosine similarity, we obtain the most similar documents from the database based on their bilingual embeddings. The findings demonstrate that the bilingual embeddings group the documents with a clear distinction between the languages. Consequently, the retrieved relevant documents are in the same language as the input sample, making this process language-invariant.

Language:	English
Keywords:	multilingual text classification, parallel corpora, cross-lingual embeddings, LLM, email classification
Work type:	Master's thesis/paper
Organization:	FE - Faculty of Electrical Engineering
Year:	2023
PID:	20.500.12556/RUL-151568
COBISS.SI-ID:	169867267
Publication date in RUL:	09.10.2023
Views:	731
Downloads:	95
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	Slovenian
Title:	Klasifikacija dvojezičnih poizvedb z uporabo medjezikovnih vektorskih vložitev besed
Zagotavljanje nemotene pisne komunikacije med podjetji in strankami je ključnega pomena za uspešno poslovanje. Sestavni del tega je tudi učinkovito upravljanje elektronskih sporočil. Vseeno pa se porablja veliko naporov v velikih podjetjih, da dokumenti najdejo pravega naslovnika oz. pravi oddelek. V zadnjem času se z uvajanjem strojnega učenja lahko tudi to nalogo delno avtomatizira, saj je področje jezikovnih tehnologij tako napredovalo, da lahko tudi iz nestrukturiranega besedila izluščijo bistvo sporočil. Avtomatizacija takšnih nalog s pomočjo klasifikacije besedil lahko pomaga pri organiziranju velikih količin besedilnih podatkov. Klasifikacija besedila je podpodročje obdelava naravnega jezika (angl. Natural language processing), katerega namen je določiti najverjetnejšo kategorijo, ki ji vzorec besedila pripada na podlagi njegove vsebine. Na primer, članke po spletu bi lahko razdelili v naslednje kategorije: šport, politika, glasba, izobraževanje itd. Ta metoda precej poenostavi postopek iskanja in luščenja uporabnih informacij iz besedilnih podatkov. Klasifikacija besedila ima številne primere uporabe, kot so zaznavanje neželene pošte, klasifikacija e-pošte, razvrščanje dokumentov itd. S svojimi tehnikami se lahko uporablja na različnih področjih, kot so varnostne analize, napovedovanje prihodnjih trendov, izboljšanje uporabniške izkušnje ipd.. Večjezikovna klasifikacija besedil razširja osnovne koncepte enojezikovne klasifikacije besedil. Uporablja se lahko za različne primere uporabe z možnostjo obdelave podatkov v več jezikih. Večjezikovna klasifikacija besedil je na primer uporabna za izvajanje tržnih raziskav na globalni ravni, s čimer se izboljša proces odločanja pri trženju, razvoju izdelkov itd. S samodejnim organiziranjem in kategoriziranjem vsebin, komentarjev itd. se lahko analizirajo nastajajoči trendi in javno mnenje po vsem svetu. Razvrstitev večjezičnih besedil je lahko omejena z razlikami v slovnici, sintaksi in semantiki med jeziki. Poleg tega usposabljanje večjezikovnega modela zahteva veliko količino podatkov v različnih jezikih, ki pa niso vedno na voljo. To je značilno za jezike, ki imajo manj podatkov, dostopnih za razvoj sistemov umetne inteligence, kot jeziki z velikimi viri podatkov, kot je angleščina. Možna rešitev je vključitev vzporednih korpusov, ki jih je mogoče pridobiti z orodji za prevajanje. Omenjena rešitev bi lahko izboljšala težavo z dostopnostjo podatkov v primerih, ko podatki niso enakomerno razdeljeni med jezike. V bistvu bi lahko razširili obseg modela na razvrščanje besedil v katerem koli ciljnem jeziku tako, da bi ga učili na prevedenih podatkih v tem jeziku. V našem pristopu vključimo preveden korpus v slovenščini, da bi prikazali uporabo vzporednega korpusa, ki ga je mogoče posplošiti na jezike, ki imajo omenjene podatkovne vire. Za ustvarjanje učinkovitega postopka razvrščanja besedila moramo besedilne informacije pretvoriti v numerične podatke, ki jih modeli strojnega učenja lahko razumejo. Vsakemu vzorcu je dodeljen vektor vložitev, vzorci znotraj iste kategorije pa imajo ponavadi podobne vložitve. Ta podobnost omogoča modelu, da jih združi skupaj in sprejme informirane odločitve o razvrščanju. Za izračun teh vložitev implementiramo model, znan kot TF-IDF (angl. term Frequency-Inverse Document Frequency). Vsaki besedi je dodeljena vrednost na podlagi pogostosti besede v določenem dokumentu in njene skupne pogostosti v vseh dokumentih. Z uporabo TF-IDF lahko zajamemo pomen besed znotraj vsakega dokumenta in zagotovimo numerično predstavitev, ki zajame bistvo besedila. Ena beseda predstavlja eno značilko v vektorju vložitev. Poleg tega implementiramo tudi alternativni pristop k statističnemu TF-IDF pri izločanju značilk, natančneje, vnaprej naučen model BERT (angl. Bidirectional Encoder Representations from Transformers) z uporabo knjižnice sentence-transformers. S primerjavo obeh tehnik luščenje značilk ocenimo njun vpliv na celotno učinkovitost klasifikacije. Ocenjujemo izvajanje klasifikacije večjezičnih besedil v tipičnem primeru uporabe: mednarodno podjetje, ki želi izboljšati storitve za stranke. Samodejna kategorizacija in neposredno posredovanje povratnih informacij in zahtev strank v ciljni oddelek lahko skrajšata komunikacijski cevovod in precej pospešita proces komunikacije. Poleg tega so komentarji in vprašanja strank zelo pomembni za sisteme, ki skrbijo za upravljanje odnosov s strankami (angl. Customer Relationship Management). Samodejno kategoriziranje takih vprašanj omogoča podjetju, da hitro oceni, prilagodi in izboljša svoj proces odločanja ter učinkovito dodeli vire. V naši raziskavi predstavljamo cevovod za avtomatizacijo kategorizacije elektronske pošte, ki jo poenostavljamo v nalogo klasifikacije besedila. Pri tem, ocenjujemo delovanje dveh klasifikacijskih algoritmov. Logistična regresija (angl. Logistic Regression) prekaša metodo naključnih gozdov (angl. Random Forest) v vseh eksperimentalnih nastavitvah. Pri razvrščanju dvojezičnih besedil logistična regresija pravilno razvrsti 97,6% z vložitvami TF-IDF in 92,7% z uporabo vnaprej naučenih vložitev. Nasprotno pa metoda naključnih gozdov doseže natančnost 93,8% z uporabo vložitev TF-IDF in 90,6% z vnaprej naučenimi vložitvami. Naši poskusi raziskujejo vpliv uporabe različnih velikosti značilk (angl. n-grams), glede na število besed v eni značilki. S spreminjanjem števila besed v eni značilki analiziramo, kako vključitev različnih besednih kombinacij vpliva na točnost postopka klasifikacije. Ugotovitve kažejo, da so značilke, sestavljene iz ene besede (angl. uni-grams) najbolj informativne za postopek klasifikacije. Najučinkovitejša služba za stranke lahko takoj zagotovi koristne in natančne odgovore na vprašanja strank. Iz tega razloga predlagamo dodajanje jezikovnih modelov v cevovod. Uporabljajo se pri nalogah, kot so analiza sentimenta, strojno prevajanje, sistemi za vprašanja in odgovori itd. Zmožnosti jezikovnih modelov pridejo do izraza pri nalogah, povezanih s pogosto postavljenimi vprašanji in odgovori. S pomočjo jezikovnih modelov lahko ustvarimo samodejni odgovor na vhodno vprašanje, kar precej pospeši proces komunikacije. Poudariti moramo, da ne ocenjujemo uspešnosti jezikovnih modelov, saj je naš glavni cilj oceniti klasifikacijo dvojezičnih besedil z uporabo korpusa, primernega za takšno nalogo. Kljub temu pa predstavljamo zastavljeno metodologijo. Kosinusno podobnost (angl. cosine similarity) uporabljamo v procesu iskanja podobnosti, da pridobimo ustrezne dokumente. Vložitve vhodnega vzorca primerjamo z vložitvami vseh učnih vzorcev. S tem identificiramo najbolj podobne dokumente vhodnemu besedilu. Ti dokumenti so nabor informacij za jazikovni model pri ustvarjanju avtomatskih odgovorov. Jezikovni model analizira podani kontekst ter poskuša ustvariti skladen povzetek oz. odgovor, ki zajema ključne informacije, ki so relevantne za vhodno besedilo. Vendar pa obstaja potencialna omejitev jezikovnih modelov pri ustvarjanju odgovorov, zlasti če pridobivajo kontekst iz različnih jezikov. To vodi do izziva določanja ustreznega jezika za generiranje odgovora. Glede na to, da naš cevovod nima modula za detekcijo jezika in deluje z dvojezičnimi podatki, moramo zagotoviti, da se jezik odgovora ujema z jezikom vhodnega besedila. Naše ugotovitve kažejo, da za ustvarjanje odgovora ne potrebujemo eksplicitnega znanja ciljnega jezika. To je zato, ker vložitve dejansko ločijo podatke v ločene skupine, kar pomeni, da imajo tudi vzorci v istem izvornem jeziku podobne vložitve. Posledično se jezik pridobljenih podobnih dokumentov ujema z jezikom testnega dokumenta. To pomeni, da v večini primerov lahko uporabimo jezikovne modele za generiranje odgovora in bo ta odgovor v enakem jeziku, kot je bilo zastavljeno vprašanje.
Keywords:	večjezična klasifikacija besedil, vzporedni korpusi, medjezikovne vložitve besed, veliki jezikovni modeli, klasifikacija e-pošte

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents