Podrobno

Vrednotenje generativnega difuzijskega modela SynDiff in metrik kakovosti za sintezo medicinskih slik
ID BOBIĆ, NINA (Avtor), ID Bizjak, Žiga (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Špiclin, Žiga (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (31,25 MB)
MD5: 921CB356FF891237429E9A4DEB568EBA

Izvleček
V magistrski nalogi obravnavamo generiranje sintetičnih slik ene modalitete na podlagi slik druge modalitete. V sodobni medicinski diagnostiki in pri načrtovanju zdravljenja so slikovne metode, kot sta računalniška tomografija (angl. computed tomography, CT) in magnetna resonanca (angl. magnetic resonance, MR), ključnega pomena. Vsaka slikovna modaliteta ponuja edinstven vpogled v človeško telo, zato za diagnozo in zdravljenje pogosto potrebujemo slike različnih modalitet. Večkratno slikanje je časovno potratno, povzroča večje stroške in večje neudobje za pacienta, z daljšim časom slikanja se poveča tudi možnost za nastanek artefaktov, zato so slikanja pogosto nepopolna z manjkajočimi modalitetami. Te omejitve ustvarjajo klinično potrebo po razvoju metod, ki omogočajo sintezo manjkajočih slikovnih modalitet iz obstoječih, brez potrebe po dodatnem slikanju. Za reševanje problema generiranja slik smo v sklopu magistrske naloge implementirali in ovrednotili nasprotniški difuzijski model SynDiff \cite{ozbey_unsupervised_2023}. Gre za model globokega učenja, ki združuje prednosti dveh modelov za generiranje slik, to je generativnih nasprotniških modelov (GAN) in difuzijskih verjetnostnih modelov (DDPM). Za vrednotenje modela smo izvedli deset eksperimentov z različnimi podatkovnimi zbirkami, ki so vsebovale različne pare modalitet, različno vzorčene slike ali slike z ali brez obarvanja ter prikazovale različne anatomije. Na primer, eksperimenti so vključevali pretvorbo med MR sekvencami možganov (FLAIR -- DIR, T1 -- T1ks, T1 -- T2), pretvorbo med CT in MR slikami glave, pretvorbo iz CBCT slik v CT slike glave in medenice, pretvorbo med CTA in CT slikami glave ter pretvorbo med anizotropnimi 2D T1 MR slikami v izotropne 3D T1 MR slike glave. Za učenje in testiranje smo uporabili različne podatkovne zbirke iz različnih centrov za vrednotenje robustnosti. Kakovost generiranih slik je bila kvantitativno ocenjena z obsežnim naborom metrik. Z uporabo različnih metrik smo se želeli čim bolj približati vizualni oceni. Uporabili smo metrike s popolno referenco (PSNR, SSIM, MS-SSIM, IW-SSIM, FSIM, VSI, GMSD, DISTS, LPIPS in HaarPSI) in metriki, ki temeljita na distribuciji latentnih značilnic (FID in KID). Uporabljene metrike smo kritično ovrednotili in analizirali njihovo obnašanje pod različnimi vplivi umetnih motenj, kot so šum, zameglitev in sprememba kontrasta. Za poenotenje navajanja rezultatov generativnih modelov za medicinske slike smo raziskali tudi vpliv ozadja na vrednosti metrik. Rezultati so pokazali, da je model SynDiff zmožen uspešno generirati realistične sintetične slike vendar se uspešnost modela razlikuje glede na kompleksnost naloge. Model je najboljše rezultate dosegel pri pretvorbah znotraj iste modalitete, kot je naloga super-ločljivosti (eksperimenti 3, 4 in 5). Najboljše rezultate so ti eksperimenti pričakovano dali pri pretvorbi iz izotropnih 3D T1 MR slik v anizotropne 2D T1 MR slike, kjer pride le do izgube informacije, kar potrjujejo tudi kvantitativne metrike: PSNR 31 -- 35~dB in SSIM 0,96 -- 0,98, LPIPS 0,04 -- 0,06 in DISTS 0,07 -- 0,10, FID 43 -- 42, KID 0,01 -- 0,02. Pri vseh eksperimentih je bila naloga zmanjševanja informacij lažja kot naloga dodajanja informacij. To so pokazali eksperimenti, kjer smo pretvarjali med slikami s kontrastom in slikami brez kontrasta (CTA -- CT in T1ks -- T1 MR). Pri pretvorbi med CBCT in CT slikami je model dosegel boljše rezultate pri nalogi izboljšanja slik (iz CBCT v CT) kot pri simulaciji artefaktov (iz CT v CBCT). Rezultati so potrdili, da je bilo generiranje slik medenice zahtevnejše od slik možganov, kar se odraža v slabših vrednostih metrik: PSNR 23,24~dB za medenico proti 23,81~dB za možgane, HaarPSI 0,31 proti 0,54, LPIPS 0,27 proti 0,14, FID 152,72 proti 110,46. Največji izziv je predstavljala sinteza med strukturno zelo različnima modalitetama, kot je generiranje MR slik iz CT slik. Pri tej nalogi je model dosegel pričakovano slabše rezultate: PSNR 18,00~dB, SSIM 0,56, HaarPSI 0,36, LPIPS 0,23, DISTS 0,20, FID 107,29. Model je pretvarjal CT v MR sliko, pri čemer CT vsebuje manj informacij o mehkih tkivih kot MR slike. Zato je ta naloga zahtevna, saj predstavlja slabo zastavljen problem preslikave \textit{ena-na-mnogo} (angl. one-to-many). Model mora tako ustvariti kompleksne anatomske podrobnosti, ki v izvorni sliki niso razvidne. Primerjava med kvantitativnimi metrikami in vizualno oceno je razkrila pomembno omejitev uporabljenih metrik, kar je bilo najbolj opazno pri pretvorbi iz CTA v CT slike. Pri tej nalogi je model dosegel dobre kvantitativne rezultate, ki so bili med najvišjimi v celotni raziskavi (PSNR 33,16~dB, SSIM 0,90, HaarPSI 0,78, FID 45,07). Vendar se visoke vrednosti metrik v tem primeru niso skladale z vizualno oceno. Težava izvira iz dejstva, da sta si vhodna in ciljna slika že v osnovi podobni, predvsem zaradi prisotnosti lobanje z visoko intenziteto pikslov, ki je na obeh slikah enaka. Naloga modela je tako zgolj ohranitev večine slikovnih informacij in odstranitev kontrasta, kar je za metrike, ki merijo splošno podobnost, enostavna naloga. Ta eksperiment kaže na zavajajoč vpliv metrik kakovosti, saj lahko visoke kvantitativne vrednosti prikrijejo dejanske rezultate naloge. Analiza metrik je potrdila, da nobena metrika ni popolna in da je za zanesljivo oceno kakovosti slike nujna uporaba in primerjava raznolikega nabora metrik, saj ima vsaka svoje prednosti in slabosti. PSNR se je izkazal za najmanj zanesljivo metriko, saj je najbolj občutljiv na preproste spremembe kontrasta in manj občutljiv na zameglitev slike. Medtem ko je osnovni SSIM občutljiv na šum, sta njegovi različici, MS-SSIM in IW-SSIM, bistveno bolj robustni na šum in zato v splošnem bolj uporabni, saj bolje ocenita ohranjeno strukturo kljub napakam. Metrika HaarPSI se je izkazala za najbolj občutljivo na zameglitev slike in izgubo ostrine. Zaradi te lastnosti je posebej primerna za ocenjevanje ohranjenosti podrobnosti. Metriki LPIPS in VSI sta najprimernejši za zaznavno in strukturno oceno kakovosti. Njuna ključna prednost je robustnost na spremembe globalnega kontrasta, kar jima omogoča, da se osredotočata na dejanske razlike v strukturi in teksturi, ki jih zazna tudi človeško oko, in nista zavedeni s preprostimi razlikami v svetlosti.

Jezik:Slovenski jezik
Ključne besede:translacija slik, sintetične slike, globoko učenje, difuzijski modeli, generativne nasprotniške mreže, SynDiff, magnetna resonanca, računalniška tomografija
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.08 - Doktorska disertacija
Organizacija:FE - Fakulteta za elektrotehniko
Leto izida:2025
PID:20.500.12556/RUL-174952 Povezava se odpre v novem oknu
COBISS.SI-ID:253434371 Povezava se odpre v novem oknu
Datum objave v RUL:10.10.2025
Število ogledov:177
Število prenosov:44
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Evaluation of the SynDiff Generative Diffusion Model and Quality Metrics for Medical Image Synthesis
Izvleček:
This master thesis addresses the generation of synthetic images of one modality from images of another. In modern medical diagnostics and treatment planning, imaging methods such as computed tomography (CT) and magnetic resonance (MR) play a crucial role. Each modality offers a unique insight into the human body, and in many cases, images from multiple modalities are needed. However, acquiring all required scans can be time-consuming, expensive, and uncomfortable for patients. Longer acquisition times also increase the likelihood of artifacts, often resulting in incomplete imaging protocols with missing modalities. These challenges create a clinical need for the development of methods that enable the synthesis of missing imaging modalities from existing ones, without the need for additional scanning. To address this, we implemented and evaluated an adversarial diffusion model called SynDiff \cite{ozbey_unsupervised_2023}, which combines the strengths of generative adversarial networks (GANs) and diffusion probabilistic models (DDPMs). To evaluate the model, ten experiments were conducted with different datasets, differing in modality pairs, anatomies and clinical contexts. The experiments included translation between brain MR sequences (FLAIR -- DIR, T1 -- T1ce, T1 -- T2), translation between CT and MR brain images, translation from CBCT to CT images for the head and pelvis, translation between CTA and CT images of the head, and the translation of anisotropic 2D T1 MR scans into isotropic 3D T1 MR images of the brain. Training and evaluation were performed on datasets from multiple centers, to verify out-of-domain robustness. The quality of the generated images was assessed using an extensive set of metrics. By using a variety of metrics, we aimed to approximate human assessment as closely as possible. We used full-reference metrics (PSNR, SSIM, MS-SSIM, IW-SSIM, FSIM, VSI, GMSD, DISTS, LPIPS, HaarPSI) and two feature distribution-based metrics (FID and KID). Furthermore, we critically analyzed the reliability of these metrics by testing their behavior under controlled degradations such as noise, blur, and contrast changes, and investigated the influence of background regions on their outcomes. The results showed that the SynDiff model is capable of generating realistic synthetic images, though performance varied depending on task complexity. The model performed best on intra-modality translations, particularly in super-resolution tasks (experiments 3, 4, and 5). These experiments yielded the best results in the translation from isotropic 3D T1 MR images to anisotropic 2D T1 MR images, entailing information reduction, which is confirmed by the quantitative metrics: PSNR 31 -- 35~dB in SSIM 0,96 -- 0,98, LPIPS 0,04 -- 0,06 in DISTS 0,07 -- 0,10, FID 43 -- 42 and KID 0,01 -- 0,02. In all experiments, the task of reducing information was easier than the task of adding information. This was demonstrated by the experiments involving translation between contrast and non-contrast images (CTA -- CT and T1ce -- T1 MR). Next, the model achieved better results when translating CBCT scans into CT, effectively enhancing quality, as compared to simulating artifacts in CBCT in the reverse direction. Tasks involving pelvic images were more challenging than brain images, reflected in lower metric values: PSNR 23,24~dB vs. 23,81~dB, HaarPSI 0,31 vs. 0,54, LPIPS 0,27 vs. 0,14, FID 152,72 vs. 110,46. The greatest challenge was the synthesis between structurally very different modalities, such as generating MR images from CT images, where the model had to infer soft-tissue details not visible in CT. On this task, the model achieved expectedly poor results: PSNR 18,00~dB, SSIM 0,56, HaarPSI 0,36, LPIPS 0,23, DISTS 0,20, FID 107,29. The comparison between quantitative metrics and visual assessment revealed a significant limitation of the metrics used, which was most apparent in the translation from CTA to CT images. On this task, the model achieved good quantitative results, which were among the best in the entire study (PSNR 33,16~dB, SSIM 0,90, HaarPSI 0,78, FID 45,07). However, in this case, the high metric values did not align with the visual assessment. The high scores were biased by structural similarities (e.g., skull regions) between source and target scans, making the task deceptively easy for similarity-based evaluation metrics. This illustrates the limitations of relying solely on quantitative metrics. Overall, our analysis confirmed that no single metric is sufficient for reliable evaluation. PSNR proved to be the least reliable metric, as it is highly sensitive to simple contrast changes, while being less sensitive to image blur. SSIM was sensitive to noise, while its variants MS-SSIM and IW-SSIM were more robust and provided a better assessment of structural preservation. The HaarPSI metric has been shown to be highly sensitive to image blur and sharpness loss, making it especially suitable for assessing the preservation of fine details. The LPIPS and VSI metrics are the most suitable for perceptual and structural quality assessment. Their key advantage is their robustness to changes in global contrast, which allows them to focus on actual structural and textural errors.

Ključne besede:image translation, synthetic images, deep learning, diffusion models, generative adversarial networks, SynDiff, magnetic resonance, computed tomography

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj