<?xml version="1.0"?>
<metadata xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dc="http://purl.org/dc/elements/1.1/"><dc:title>Analiza diskusij spletnih podpornih skupin z metodami strojnega učenja za namen pridobivanja informacij o psiholoških vidikih zdravljenja</dc:title><dc:creator>Erčulj,	Vanja Ida	(Avtor)
	</dc:creator><dc:creator>Žiberna,	Aleš	(Mentor)
	</dc:creator><dc:creator>Globevnik Velikonja,	Vislava	(Komentor)
	</dc:creator><dc:subject>neplodnost</dc:subject><dc:subject>analiza besedila</dc:subject><dc:subject>tekstovno rudarjenje</dc:subject><dc:subject>raziskovalni pristop</dc:subject><dc:subject>spletna podporna skupina</dc:subject><dc:subject>metode strojnega učenja</dc:subject><dc:subject>validacija</dc:subject><dc:subject>zdravstvo</dc:subject><dc:subject>forum</dc:subject><dc:description>Številne raziskave ugotavljajo, da so psihološki vidiki zdravljenja povezani z izhodom zdravljenja. Proučevanje psiholoških vidikov zdravljenja in ustrezno ukrepanje je tako temeljnega pomena za zagotavljanje optimalne zdravstvene storitve. Za proučevanje psiholoških vidikov zdravljenja se uporabljajo različni raziskovalni pristopi, tako kvalitativni kot kvantitativni. Eden izmed ciljev doktorskega dela je bil proučiti raziskovalne pristope, ki se uporabljajo za proučevanje psihološkega doživljanja na področju proučevanja, to je zdravljenju neplodnosti. V doktorskem delu so predstavljene značilnosti, prednosti in pomanjkljivosti raziskovalnih pristopov, ki so bili uporabljeni za proučevanje doživljanja anksioznosti, depresivnosti, agresivnosti in stresa v času zdravljenja neplodnosti.

Drugi cilj doktorskega dela je bil umestiti pristop proučevanja psiholoških vidikov zdravljenja z analizo prosto generiranega besedila spletnih podpornih skupin s pomočjo metod strojnega učenja med obstoječe raziskovalne pristope. V ta namen je bilo zajeto besedilo foruma Neplodnost spletne skupnosti med.over.net med letom 2002 in 2016. Analiza besedila z metodami strojnega učenja je vključevala določitev ključnih besed v besedilu, glavnih tematik pogovora, uvrščanje v skupine, glede na izhod zdravljenja (zanositev) in proučitev čustvenega doživljanja uporabnic foruma (na forumu sodelujejo pretežno ženske) na splošno kot tudi glede na izhod zdravljenja. Določitev ključnih besed je vključevala uporabo različnih statističnih in lingvističnih pristopov ter pristop, temelječ na teoriji grafov (tudi omrežni pristop). V manjšem številu in po slučaju izbranih sporočil, so bile ključne besede določene ročno s strani dveh ocenjevalcev in avtomatsko z uporabo omenjenih pristopov. Izračunana je bila skladnost med ocenjevalcema. Končni seznam ključnih besed označenih sporočil je vključeval tiste, ki jih je določil vsaj eden od ocenjevalcev.

Pred avtomatsko analizo besedila za določitev ključnih besed so bili v besedilu obdržani le pridevniki in samostalniki v osnovni obliki (t.i. lematizacija besedila). Iz besedila so bile odstranjene stop besede.

Pri določanju ključnih besed so se najbolje izkazali trije pristopi, in sicer določitev ključnih besed z uporabo frekvence besed (unigramov), normalizirane frekvence besed in omrežni pristop z uporabo algoritma RAKE (ang. rapid automatic keyword extraction). Prednost slednjega je bila vključitev besednih zvez med ključne besede. Med ročno določenimi ključnimi besedami je bila namreč slaba četrtina besednih zvez. Tako je bil za avtomatsko določitev ključnih besed na celotnem besedilu uporabljen RAKE. Ključne besede so bile določene na vsakem dokumentu (sporočilu) posebej. Na koncu so bile izločene najbolj pogoste besede iz vseh dokumentov in prikazane z besednim oblakom.

Iz besednega oblaka je bilo razvidno, da si uporabnice foruma nudijo čustveno in informacijsko oporo. Slednje so potrdili tudi rezultati iskanja latentnih tematik s pristopom modeliranja tematik (ang. topic modeling). Iz sporočil so bile izločene stop besede, ločila in številke. V analizo so bili vključeni samostalniki, pridevniki in glagoli v osnovni obliki. Modeliranje tematik je potekalo z metodo LDA (ang. latent Dirichlet allocation). Izločenih je bilo deset tematik. V vsaki tematiki so bile identificirane besede, ki so najbolj verjetno povezane s posamezno tematiko. Identificirana je bila tematika čustvena opora, vse ostale tematike pa je bilo mogoče uvrstiti v informacijsko oporo. Čustvena opora je bila sestavljena iz treh podtematik, in sicer spodbude, čestitk in empatije/simpatije. Informacijska opora je vključevala več tematik. Uporabnice so se pogovarjale o fazah zunajtelesne oploditve, od punkcije jajčnih celic do morebitne nosečnosti ter o težavah in simptomih, povezanih s posamezno fazo. Delile so informacije o uradnih postopkih, kot so pridobivanje napotnic, naročanje in čakalne dobe. Pogovarjale so se o zdravilih, njihovi dostopnosti, delovanju in aplikaciji. Ker ima zdravljenje neplodnosti vpliv na vsakdanje življenje, je pogovor vključeval tudi morebitne bolniške odsotnosti zaradi zdravljenja in razmišljanja o tem ali in kako povedati o svojem stanju sorodnikom, prijateljem in sodelavcem. Uporabnice so se informirale o preiskavah in operativnih posegih, ki so del zdravljenja neplodnosti, o zdravstvenem sistemu in pravni urejenosti področja zdravljenja neplodnosti, menstrualnem ciklusu, fazah zdravljenja neplodnosti ter možnih alternativnih pristopih k zdravljenju.

Za potrebe doktorskega dela je bila opravljena vsebinska validacija razvrstitve, ki je vključevala ročno označevanje vsebinske ustreznosti po slučaju izbranih 100 sporočil v vsaki tematiki (skupaj 1000 sporočil). Ocena pravilnosti razvrstitve je kazala na ustrezno vsebinsko homogenost tematik. Nekatere tematike so bile nekoliko bolj homogene kot druge. Za preverbo zanesljivosti (ponovljivosti) izsledkov so sledile tri ponovitve metode LDA z različnimi slučajnimi začetnimi razvrstitvami sporočil v skupine. Izkazalo se je, da je merjenje vsebine zelo zanesljivo pri osmih in manj zanesljivo pri dveh tematikah.

Nadaljnja analiza je vključevala uvrstitev uporabnic v skupine glede na poročanje o zanositvi. V analizo so bila vključena zadnja tri sporočila uporabnic, ki so v forum prispevale vsaj 100 besed. Preizkušeni so bili različni klasifikacijski algoritmi na po slučaju izbranih in ročno označenih sporočilih po uporabnicah.

Najvišjo učinkovitost je izkazal algoritem logistične regresije, ki je bil uporabljen za avtomatsko uvrščanje na vseh sporočilih (uporabnicah). Postopek je bil dvakrat ponovljen, na vseh uporabnicah in na vseh uporabnicah, ki jih je algoritem uvrstil v skupino nenosečih. Besedilo uporabnic, ki so bile uvrščene med noseče, je bilo ročno pregledano, zato da je skupina nosečih uporabnic homogena.

Za proučevanje čustvenega doživljanja uporabnic je bil uporabljen slovar sentimenta avtorjev Kadunc in Robnik-Šikonja, temelječ na slovarju sentimenta Hu in Liu. Slovar vsebuje seznam besed s pozitivnim in negativnim sentimentom. Izračunano je bilo razmerje med številom pozitivnih in negativnih besed po uporabnici. Analiza je vključevala opis sentimenta glede na omenjeno razmerje za vse uporabnice ter po skupinah uporabnic glede na zanositev. Po zgledu slovarja LIWC (ang. linguistic inquiry and word count) so bile besede z negativnim sentimentom, ki so se pojavile v forumskem besedilu, s strani treh ocenjevalcev razvrščene v eno izmed čustvenih kategorij jeze/agresivnosti, strahu/anksioznosti, žalosti/depresivnosti ali neopredeljeno. Izračunana je bila skladnost med ocenjevalci. Končni seznam je vključeval besede, kjer so ocenjevalci izkazali večinsko strinjanje. Izračunan je bil delež besed, ki izražajo posamezno čustvo med vsemi negativnimi besedami. Sentiment v obliki razmerja med številom pozitivnih in negativnih besed je bil izračunan za vsako tematiko pogovora posebej z namenom identifikacije tematike oz. vidikov zdravljenja, kjer je doživljanje uporabnic najbolj negativno. Za vsako od tematik je bil izračunan tudi delež besed, ki izražajo posamezno čustvo med negativnimi besedami. S tem so bila opredeljena prevladujoča negativna čustva ob pogovoru o določeni tematiki. Izračunano je bilo čustveno doživljanje uporabnic na splošno ter glede na izhod zdravljenja.

Vsi izsledki, dobljeni z opisano analizo, so bili primerjani z izsledki drugih, sorodnih raziskav v Sloveniji in svetu. Validacija izsledkov analiz z metodami strojnega učenja je bila namreč tretji cilj doktorskega dela. Analiza besedila spletnih podpornih skupnosti z nekaterimi metodami strojnega učenja je bila že uporabljena na drugih z zdravjem povezanih področjih, na proučevanem področju pa zelo redko. V Sloveniji pa pristop še ni bil uporabljen.

Izsledki analiz so tako primerjani z izsledki drugih raziskovalnih pristopov na proučevanem področju. Vsebinska primerjava pokaže na vzporednice z ugotovitvami drugih tujih in slovenskih raziskav. Izsledki analiz so bili, poleg z izsledki drugih, sorodnih, raziskav, primerjani tudi z izsledki analiz spletne ankete, ki je bila z dovoljenjem administratorja v letu 2018 objavljena na forumu Neplodnost na portalu med.over.net. Izsledki uporabljenega pristopa so bili primerljivi z izsledki ankete.

Prednost pristopa je njegova neinvazivnost, časovna in cenovna ekonomičnost ter učinek disinhibicije (deljenja občutljivih in osebnih podatkov kot posledica anonimnosti, ki jo nudi internet). Slabosti pristopa pa so nereprezentativnost vzorca in s tem povezana pristranskost zaključkov, nepoznavanje demografskih in anamnestičnih podatkov sodelujočih v pogovorih in pasivnost vloge raziskovalca v pridobivanju informacij.

Tako kot pri številnih drugih raziskovalnih pristopih je verodostojnost in zaupanje v zaključke raziskav večje, če so ti podobni, ne glede na uporabljen raziskovalni pristop. Kombinacija raziskovalnih pristopov je tako ključna za pridobivanje celostne slike o psihološkem doživljanju posameznika v procesu zdravljenja.</dc:description><dc:date>2019</dc:date><dc:date>2020-01-20 15:00:07</dc:date><dc:type>Doktorsko delo/naloga</dc:type><dc:identifier>113556</dc:identifier><dc:identifier>VisID: 2015</dc:identifier><dc:identifier>COBISS_ID: 36571997</dc:identifier><dc:language>sl</dc:language></metadata>
