Analiza diskusij spletnih podpornih skupin z metodami strojnega učenja za namen pridobivanja informacij o psiholoških vidikih zdravljenja

Erčulj, Vanja Ida

Analiza diskusij spletnih podpornih skupin z metodami strojnega učenja za namen pridobivanja informacij o psiholoških vidikih zdravljenja
ID Erčulj, Vanja Ida (Author), ID Žiberna, Aleš (Mentor) More about this mentor... This link opens in a new window

, ID Globevnik Velikonja, Vislava (Comentor)

PDF - Presentation file, Download (3,52 MB)
MD5: 7D63046B15E70D47580BCFB005949627

Abstract

Številne raziskave ugotavljajo, da so psihološki vidiki zdravljenja povezani z izhodom zdravljenja. Proučevanje psiholoških vidikov zdravljenja in ustrezno ukrepanje je tako temeljnega pomena za zagotavljanje optimalne zdravstvene storitve. Za proučevanje psiholoških vidikov zdravljenja se uporabljajo različni raziskovalni pristopi, tako kvalitativni kot kvantitativni. Eden izmed ciljev doktorskega dela je bil proučiti raziskovalne pristope, ki se uporabljajo za proučevanje psihološkega doživljanja na področju proučevanja, to je zdravljenju neplodnosti. V doktorskem delu so predstavljene značilnosti, prednosti in pomanjkljivosti raziskovalnih pristopov, ki so bili uporabljeni za proučevanje doživljanja anksioznosti, depresivnosti, agresivnosti in stresa v času zdravljenja neplodnosti. Drugi cilj doktorskega dela je bil umestiti pristop proučevanja psiholoških vidikov zdravljenja z analizo prosto generiranega besedila spletnih podpornih skupin s pomočjo metod strojnega učenja med obstoječe raziskovalne pristope. V ta namen je bilo zajeto besedilo foruma Neplodnost spletne skupnosti med.over.net med letom 2002 in 2016. Analiza besedila z metodami strojnega učenja je vključevala določitev ključnih besed v besedilu, glavnih tematik pogovora, uvrščanje v skupine, glede na izhod zdravljenja (zanositev) in proučitev čustvenega doživljanja uporabnic foruma (na forumu sodelujejo pretežno ženske) na splošno kot tudi glede na izhod zdravljenja. Določitev ključnih besed je vključevala uporabo različnih statističnih in lingvističnih pristopov ter pristop, temelječ na teoriji grafov (tudi omrežni pristop). V manjšem številu in po slučaju izbranih sporočil, so bile ključne besede določene ročno s strani dveh ocenjevalcev in avtomatsko z uporabo omenjenih pristopov. Izračunana je bila skladnost med ocenjevalcema. Končni seznam ključnih besed označenih sporočil je vključeval tiste, ki jih je določil vsaj eden od ocenjevalcev. Pred avtomatsko analizo besedila za določitev ključnih besed so bili v besedilu obdržani le pridevniki in samostalniki v osnovni obliki (t.i. lematizacija besedila). Iz besedila so bile odstranjene stop besede. Pri določanju ključnih besed so se najbolje izkazali trije pristopi, in sicer določitev ključnih besed z uporabo frekvence besed (unigramov), normalizirane frekvence besed in omrežni pristop z uporabo algoritma RAKE (ang. rapid automatic keyword extraction). Prednost slednjega je bila vključitev besednih zvez med ključne besede. Med ročno določenimi ključnimi besedami je bila namreč slaba četrtina besednih zvez. Tako je bil za avtomatsko določitev ključnih besed na celotnem besedilu uporabljen RAKE. Ključne besede so bile določene na vsakem dokumentu (sporočilu) posebej. Na koncu so bile izločene najbolj pogoste besede iz vseh dokumentov in prikazane z besednim oblakom. Iz besednega oblaka je bilo razvidno, da si uporabnice foruma nudijo čustveno in informacijsko oporo. Slednje so potrdili tudi rezultati iskanja latentnih tematik s pristopom modeliranja tematik (ang. topic modeling). Iz sporočil so bile izločene stop besede, ločila in številke. V analizo so bili vključeni samostalniki, pridevniki in glagoli v osnovni obliki. Modeliranje tematik je potekalo z metodo LDA (ang. latent Dirichlet allocation). Izločenih je bilo deset tematik. V vsaki tematiki so bile identificirane besede, ki so najbolj verjetno povezane s posamezno tematiko. Identificirana je bila tematika čustvena opora, vse ostale tematike pa je bilo mogoče uvrstiti v informacijsko oporo. Čustvena opora je bila sestavljena iz treh podtematik, in sicer spodbude, čestitk in empatije/simpatije. Informacijska opora je vključevala več tematik. Uporabnice so se pogovarjale o fazah zunajtelesne oploditve, od punkcije jajčnih celic do morebitne nosečnosti ter o težavah in simptomih, povezanih s posamezno fazo. Delile so informacije o uradnih postopkih, kot so pridobivanje napotnic, naročanje in čakalne dobe. Pogovarjale so se o zdravilih, njihovi dostopnosti, delovanju in aplikaciji. Ker ima zdravljenje neplodnosti vpliv na vsakdanje življenje, je pogovor vključeval tudi morebitne bolniške odsotnosti zaradi zdravljenja in razmišljanja o tem ali in kako povedati o svojem stanju sorodnikom, prijateljem in sodelavcem. Uporabnice so se informirale o preiskavah in operativnih posegih, ki so del zdravljenja neplodnosti, o zdravstvenem sistemu in pravni urejenosti področja zdravljenja neplodnosti, menstrualnem ciklusu, fazah zdravljenja neplodnosti ter možnih alternativnih pristopih k zdravljenju. Za potrebe doktorskega dela je bila opravljena vsebinska validacija razvrstitve, ki je vključevala ročno označevanje vsebinske ustreznosti po slučaju izbranih 100 sporočil v vsaki tematiki (skupaj 1000 sporočil). Ocena pravilnosti razvrstitve je kazala na ustrezno vsebinsko homogenost tematik. Nekatere tematike so bile nekoliko bolj homogene kot druge. Za preverbo zanesljivosti (ponovljivosti) izsledkov so sledile tri ponovitve metode LDA z različnimi slučajnimi začetnimi razvrstitvami sporočil v skupine. Izkazalo se je, da je merjenje vsebine zelo zanesljivo pri osmih in manj zanesljivo pri dveh tematikah. Nadaljnja analiza je vključevala uvrstitev uporabnic v skupine glede na poročanje o zanositvi. V analizo so bila vključena zadnja tri sporočila uporabnic, ki so v forum prispevale vsaj 100 besed. Preizkušeni so bili različni klasifikacijski algoritmi na po slučaju izbranih in ročno označenih sporočilih po uporabnicah. Najvišjo učinkovitost je izkazal algoritem logistične regresije, ki je bil uporabljen za avtomatsko uvrščanje na vseh sporočilih (uporabnicah). Postopek je bil dvakrat ponovljen, na vseh uporabnicah in na vseh uporabnicah, ki jih je algoritem uvrstil v skupino nenosečih. Besedilo uporabnic, ki so bile uvrščene med noseče, je bilo ročno pregledano, zato da je skupina nosečih uporabnic homogena. Za proučevanje čustvenega doživljanja uporabnic je bil uporabljen slovar sentimenta avtorjev Kadunc in Robnik-Šikonja, temelječ na slovarju sentimenta Hu in Liu. Slovar vsebuje seznam besed s pozitivnim in negativnim sentimentom. Izračunano je bilo razmerje med številom pozitivnih in negativnih besed po uporabnici. Analiza je vključevala opis sentimenta glede na omenjeno razmerje za vse uporabnice ter po skupinah uporabnic glede na zanositev. Po zgledu slovarja LIWC (ang. linguistic inquiry and word count) so bile besede z negativnim sentimentom, ki so se pojavile v forumskem besedilu, s strani treh ocenjevalcev razvrščene v eno izmed čustvenih kategorij jeze/agresivnosti, strahu/anksioznosti, žalosti/depresivnosti ali neopredeljeno. Izračunana je bila skladnost med ocenjevalci. Končni seznam je vključeval besede, kjer so ocenjevalci izkazali večinsko strinjanje. Izračunan je bil delež besed, ki izražajo posamezno čustvo med vsemi negativnimi besedami. Sentiment v obliki razmerja med številom pozitivnih in negativnih besed je bil izračunan za vsako tematiko pogovora posebej z namenom identifikacije tematike oz. vidikov zdravljenja, kjer je doživljanje uporabnic najbolj negativno. Za vsako od tematik je bil izračunan tudi delež besed, ki izražajo posamezno čustvo med negativnimi besedami. S tem so bila opredeljena prevladujoča negativna čustva ob pogovoru o določeni tematiki. Izračunano je bilo čustveno doživljanje uporabnic na splošno ter glede na izhod zdravljenja. Vsi izsledki, dobljeni z opisano analizo, so bili primerjani z izsledki drugih, sorodnih raziskav v Sloveniji in svetu. Validacija izsledkov analiz z metodami strojnega učenja je bila namreč tretji cilj doktorskega dela. Analiza besedila spletnih podpornih skupnosti z nekaterimi metodami strojnega učenja je bila že uporabljena na drugih z zdravjem povezanih področjih, na proučevanem področju pa zelo redko. V Sloveniji pa pristop še ni bil uporabljen. Izsledki analiz so tako primerjani z izsledki drugih raziskovalnih pristopov na proučevanem področju. Vsebinska primerjava pokaže na vzporednice z ugotovitvami drugih tujih in slovenskih raziskav. Izsledki analiz so bili, poleg z izsledki drugih, sorodnih, raziskav, primerjani tudi z izsledki analiz spletne ankete, ki je bila z dovoljenjem administratorja v letu 2018 objavljena na forumu Neplodnost na portalu med.over.net. Izsledki uporabljenega pristopa so bili primerljivi z izsledki ankete. Prednost pristopa je njegova neinvazivnost, časovna in cenovna ekonomičnost ter učinek disinhibicije (deljenja občutljivih in osebnih podatkov kot posledica anonimnosti, ki jo nudi internet). Slabosti pristopa pa so nereprezentativnost vzorca in s tem povezana pristranskost zaključkov, nepoznavanje demografskih in anamnestičnih podatkov sodelujočih v pogovorih in pasivnost vloge raziskovalca v pridobivanju informacij. Tako kot pri številnih drugih raziskovalnih pristopih je verodostojnost in zaupanje v zaključke raziskav večje, če so ti podobni, ne glede na uporabljen raziskovalni pristop. Kombinacija raziskovalnih pristopov je tako ključna za pridobivanje celostne slike o psihološkem doživljanju posameznika v procesu zdravljenja.

Language:	Slovenian
Keywords:	neplodnost, analiza besedila, tekstovno rudarjenje, raziskovalni pristop, spletna podporna skupina, metode strojnega učenja, validacija, zdravstvo, forum
Work type:	Doctoral dissertation
Organization:	FDV - Faculty of Social Sciences
Year:	2019
PID:	20.500.12556/RUL-113556
COBISS.SI-ID:	36571997
Publication date in RUL:	20.01.2020
Views:	2975
Downloads:	417
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Analysis of Online Support Groups Discussions Using the Machine Learning Methods to Obtain Information on Psychological Aspects of Treatment
As many research results suggest that the psychological aspects of treatment are closely related to the treatment outcomes, investigation of these aspects – along with implementation of appropriate measures – is an essential element in striving towards optimal medical treatment service. Various approaches, both qualitative and quantitative, were employed for studying the psychological aspects of treatment. The first objective of the present work was to examine these approaches in the specific area of infertility treatment: the thesis presents characteristics, strengths and weaknesses of the approaches for assessment of anxiety, depression, aggressiveness and stress in patients undergoing infertility treatment. The second objective was to establish the position/role of text mining in comparison to other approaches for assessment of the psychological aspects of treatment. For this purpose, the messages posted on the online support group "Infertility" (Neplodnost) of the med.over.net web-forum in the period 2002-2016 were analysed. The analysis consisted of keyword extraction, text clustering, text classification and sentiment analysis. Keyword extraction was performed using different statistical and linguistic methods as well as network approach based on Rapid Algorithm Keyword Extraction (RAKE). Keywords were extracted manually from a smaller subset of randomly chosen forum messages by two independent annotators (raters). The inter-rater agreement was calculated. The final list of keywords included the keywords selected by at least one annotator. Keywords were then extracted automatically using the abovementioned keyword extraction methods. The analysis was performed using the base forms (lemmas) of adjectives and nouns. Comparison of manually and automatically extracted keywords showed that three methods – term frequency based keyword extraction, normalized term frequency (tf-idf) and RAKE – performed best; their efficacy was similar. However, compared to the first two methods, RAKE showed the advantage of extracting not only single-word but also multiple-word items as keywords. The list of manually determined keywords comprised almost 25% of multiple-word items. Consequently, RAKE was eventually selected for automatic identification of keywords in all other messages. The hundred most frequent identified keywords were depicted as a word cloud. The word cloud suggested that the online community participants were on one hand looking for informational and emotional support, and on the other hand provided such support. The finding was further supported by retrieval of latent topics that were extracted by the topic modelling. Text pre-processing included removal of stop words, punctuation and numbers, lemmatisation (putting words in their base form) and part-of-speech tagging. Only base forms of nouns, adjectives and verbs were used for the analysis. Topic modelling was performed using the LDA (latent Dirichlet allocation) method. Each individual message was assigned to one of the ten key topics. For each topic words most likely to be associated with it (topic keywords) were identified. The ten topics were manually merged into two general topics: topic of the emotional support and topic of the informational support. The emotional support topic consisted of three subtopics: encouragement, congratulations, and empathy / sympathy. The informational support topic included nine topics. These comprised discussions about the stages of assisted reproductive treatment, from ovarian puncture to possible pregnancy, and the problems and symptoms associated with each individual stage. The users shared information about official procedures such as referrals, appointment scheduling and waiting times for an appointment. They discussed medicines, their availability, functioning and administration. Participants conversed about the impact of the infertility treatment on their work due to frequent sick leaves. They proved to be reluctant to discuss their condition and treatment with their relatives, friends and co-workers. The participants informed each other about the investigations and surgical procedures that are part of the infertility treatment, about the health system and infertility treatment-related legal regulations, the menstrual cycle, the stages of infertility treatment and possible alternative approaches to treatment The latent topics that were obtained were content-validated using a random sample of 100 messages from each topic (1000 messages in total) that were human-inspected regarding the content appropriateness. The inspection suggested appropriate content homogeneity of the topics, although some topics seemed somewhat more homogeneous than the others. Subsequently, the reliability (repeatability) of the findings was verified by three replicates of the LDA method with different random initial assignment of topics to documents (messages) and words to topics. Content measurement was found to be very reliable for eight of the ten topics and less reliable for the other two. Further analysis included the classification of users in two "pregnancy" groups: (a) pregnancy achieved or reported and (b) pregnancy not achieved or reported. The analysis included the last three messages from the users who contributed at least 100 words to the forum. Different classifiers have been tested on randomly selected and manually annotated messages. The logistic regression classifier performed best and was used to classify all users (their last three messages). The procedure was then repeated with all users who were assigned to the group of non-pregnant women. The text of users classified as pregnant has been manually reviewed to ensure the homogeneity of the group. Users' sentiment analysis was performed using the Kadunc and Robnik Šikonja sentiment dictionary (based on the Hu and Liu sentiment dictionary). The dictionary contains a list of words with positive and negative sentiment. The positive to negative words ratio per user was calculated. The analysis included description of the overall users’ sentiment and the sentiment of the two pregnancy groups. Negative sentiment words appearing in the forum text were classified into four categories – anger / aggression, fear / anxiety, sadness / depression, undefined – by three independent raters, following the example of the LIWC (Linguistic inquiry and word count) dictionary. Inter-rater agreement was calculated. The final list consisted of words that achieved the majority agreement between raters. For each topic, sentiment was calculated as the positive to negative words ratio to find out which treatment aspect(s) users perceived as most negative. The proportion of each emotional category words among all negative words was calculated for each topic, providing identification of the dominant negative emotions for each particular topic. This proportion was also calculated for all users and for each pregnancy group. Findings of the analysis were compared to other related research, both in Slovenia and abroad as the third objective of the thesis was validation of the results obtained using the text mining technique. Text-mining analysis of online support communities’ has already been used in other health-related research areas, but hardly ever in the present study field and not at all in Slovenia. Therefore, the present results were compared to the results of other research approaches in the studied field. Comparison with regard to contents showed similarities to the results of other studies in the research field. For validation purposes, the present results were also compared with the results of an online survey analysis, with administrator's permission published on the online Infertility support group discussion board in 2018. The results of the text-mining approach were comparable to those of this survey. The advantages of the approach presented in this work are its non-intrusiveness, time- and cost-effectiveness and the benefit of "disinhibition effect" (the sharing of sensitive and personal data as a result of the anonymity offered by the Internet), while its disadvantages are the non-representative sample and the associated conclusion bias, lack of basic demographic and anamnestic data on the forum participants, and the passive researcher’s role in obtaining information. As with many research approaches, the credibility of the conclusions based on the findings and confidence in them are greater if they are similar, regardless of the research approach used. Combination of research approaches is thus a key feature of the endeavour to acquire an extensive knowledge about patient's psychological experience during their medical treatment process.
Keywords:	infertility, text analysis, text mining, research approach, online support group, machine learning methods, validation, health, forum

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents