V sklopu te raziskave smo želeli ugotoviti ali lahko izboljšamo vrednotenje modelov za napovedovanje perturbacij na podatkih transkriptoma posameznih celic z uporabo metrik, ki presegajo običajno uporabljeni korelacijo in koeficient determinacije. Uporabili smo devet metrik: kosinusno razdaljo, evklidsko razdaljo, logaritem verjetja, maksimalno srednjo diskrepanco, srednjo absolutno napako, srednjo kvadratno napako, korelacijo, koeficient determinacije in koren srednje kvadratne napake. Metrike smo uporabili tako na resničnih, kot tudi na simuliranih podatkih, da bi ocenili njihovo zmožnost zajetja razlik med kontrolo, perturbiranim stanjem in napovedanim perturbiranim stanjem. Opazili smo, da so alternativne metrike sicer pokazale nekoliko drugačne rezultate, vendar niso konsistentno pokazale boljših rezultatov v primerjavi s pogosto uporabljenimi metrikami. Poleg tega je to delo raziskovalo tudi vpliv spremenljivosti izražanja genov, z uporabo razporejanja genov s podobnim izražanjem v razrede in raziskovalo pristranskosti, ki jih prinaša taka strategija. Te ugotovitve poudarjajo pomen variabilnosti podatkov in morebitne omejitve pristopa razporejanja genov s podobnim izražanjem v razrede. To delo kaže, da so pogosto uporabljene metrike, kot sta korelacija in koeficient determinacije, dovolj primerne za ocenjevanje modelov za napovedovanje perturbacij. Vendar pa bi bilo pri prihodnjem delu koristno raziskati bolj raznolike nabore podatkov, alternativne modele in izpopolnjene strategije razporejanja genov s podobnim izražanjem v razrede, da bi to trditev dodatno preverili.
|