Podrobno

Augmentation of positive and unlabeled data using generative adversarial networks
ID Papič, Aleš (Avtor), ID Bosnić, Zoran (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Kononenko, Igor (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (21,70 MB)
MD5: D7BF5E84F9AC17E965A12B70A2719F7C

Izvleček
In an era characterized by rapid technological advancements, generative artificial intelligence is steadily finding its way into consumer electronics. As content generation becomes more effortless, the consequent fast data growth poses significant challenges for data processing, often reliant on human labor. This thesis explores positive and unlabeled learning as a strategy to reduce the cost of data labeling. The primary advantage of positive and unlabeled learning is its effectiveness when negative data are either unavailable or too diverse to label directly. By leveraging both positive and unlabeled data, positive and unlabeled learning utilizes all available information, offering greater robustness and generalization compared to methods that rely solely on positive data. We propose a novel Conditional Generative Positive and Unlabeled (CGenPU) framework, which trains a binary classifier to differentiate between known positive and unknown negative examples. To effectively train the classifier, we need to simultaneously train a generator to generate both positive and negative training examples for the classifier. Since existing loss functions require labeled examples from all relevant classes, we developed our own loss function to address this limitation. Specifically, to enable the classifier to effectively discriminate between positive and negative examples, we introduce a novel auxiliary loss that facilitates learning from positive and unlabeled datasets. The soundness of our approach is demonstrated through theoretical analysis. We apply CGenPU to binary image classification tasks using multiple benchmark datasets, such as MNIST and CIFAR-10. Evaluation shows superior performance in digit recognition and object classification tasks. However, the weak nature of auxiliary loss indicates stability and overfitting issues. To address these limitations, we propose Positively Dense Example Weighting (PosiDEW), which calculates weights for training examples, improving class balance in sampled batch data. Additionally, we extend the auxiliary loss with a regularization term, which prevents overfitting by slowing down the classifier's learning. Evaluation demonstrates that the proposed improvements enable CGenPU to more effectively learn the distribution of positive and negative data. Furthermore, these refinements do not negatively impact training time while significantly improve classification accuracy. Additionally, we propose a novel polyp detection pipeline to address the slow and tedious labeling process. CGenPU trains a classifier to generate polyp segmentation masks, which are then postprocessed to determine polyp locations on an image. Evaluation reveals comparable performance with existing approaches, although it has not yet reach the level of state-of-the-art techniques.

Jezik:Angleški jezik
Ključne besede:machine learning, deep learning, generative adversarial networks, data augmentation, positive and unlabeled learning, binary classification
Vrsta gradiva:Doktorsko delo/naloga
Tipologija:2.08 - Doktorska disertacija
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-169302 Povezava se odpre v novem oknu
COBISS.SI-ID:238487811 Povezava se odpre v novem oknu
Datum objave v RUL:22.05.2025
Število ogledov:379
Število prenosov:118
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Bogatenje pozitivnih in neoznačenih podatkov z generativnimi nasprotniškimi mrežami
Izvleček:
V obdobju hitrega tehnološkega napredka generativna umetna inteligenca postopoma postaja del potrošniške elektronike. Ker je ustvarjanje vsebin postalo lažje, hitro naraščanje podatkov prinaša pomembne izzive za obdelavo podatkov, ki se pogosto zanaša na človeško delo. Ta disertacija raziskuje pozitivno in neoznačeno učenje kot strategijo za olajšanje označevanja podatkov. Glavna prednost pozitivnega in neoznačenega učenja je njegova učinkovitost v primerih, ko negativni podatki bodisi niso na voljo ali so preveč raznoliki, da bi jih lahko neposredno označili. S kombiniranjem pozitivnih in neoznačenih podatkov pozitivno in neoznačeno učenje izkoristi vse razpoložljive informacije ter ponuja večjo robustnost in posplošljivost v primerjavi z metodami, ki temeljijo zgolj na pozitivnih podatkih. V tej disertaciji predlagamo novo ogrodje za pogojno generativno pozitivno in neoznačeno učenje (Conditional Generative Positive and Unlabeled, CGenPU), ki nauči binarni klasifikator razlikovati med znanimi pozitivnimi in neznanimi negativnimi primeri. Da bi naučili klasifikator, moramo hkrati naučiti generator, da ustvari pozitivne in negativne učne primere za klasifikator. Ker obstoječe funkcije izgube zahtevajo označene primere iz vseh pomembnih razredov, smo razvili lastno funkcijo izgube, da bi odpravili to omejitev. Natančneje, da bi učinkovito razlikovali med pozitivnimi in negativnimi primeri, uvajamo novo pomožno funkcijo izgube, ki omogoča učenje iz pozitivnih in neoznačenih podatkovnih virov. Pravilnost našega pristopa pokažemo s teoretično analizo. Ogrodje CGenPU uporabljamo za naloge klasifikacije slik z uporabo več referenčnih podatkovnih virov, kot sta MNIST in CIFAR-10. Vrednotenje kaže boljšo zmogljivost pri prepoznavanju števk in klasifikaciji predmetov. Vendar pa šibek nadzor pomožne funkcije izgube nakazuje težave s stabilnostjo in pretiranim prileganjem učnim podatkom. Za reševanje omenjenih pomanjkljivosti predlagamo korak predprocesiranja, ki ga imenujemo pozitivno gosto uteževanje primerov (Positively Dense Example Weighting, PosiDEW), za izračun uteži učnih primerov in jih uporabimo za izboljšanje uravnoteženosti razredov med vzorčenjem učnih paketov. Poleg tega razširimo pomožno funkcijo izgube z regularizacijskim členom, ki prepreči pretirano prileganje podatkom z upočasnitvijo učenja klasifikatorja. Vrednotenje pokaže, da predlagane izboljšave omogočajo ogrodju CGenPU učinkovitejše učenje porazdelitve pozitivnih in negativnih primerov. Poleg tega omenjene izboljšave ne vplivajo negativno na čas učenja, medtem ko znatno izboljšajo klasifikacijsko točnost. Predlagamo tudi nov postopek za detekcijo polipov na slikah za reševanje počasnega in napornega postopka označevanja. Ogrodje CGenPU nauči klasifikator za ustvarjanje segmentacijskih mask polipov, ki so nato nadalje obdelane za določitev lokacij polipov na sliki. Vrednotenje razkrije primerljivo zmogljivost z obstoječimi pristopi, čeprav še ne dosega ravni najsodobnejših tehnik.

Ključne besede:strojno učenje, globoko učenje, generativne nasprotniške mreže, bogatenje podatkov, pozitivno in neoznačeno učenje, binarna klasifikacija

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj