Embedding to Reference t-SNE Space Addresses Batch Effects in Single-Cell Classification

Poličar, Pavlin Gregor

Embedding to Reference t-SNE Space Addresses Batch Effects in Single-Cell Classification
ID Poličar, Pavlin Gregor (Avtor), ID Zupan, Blaž (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (16,34 MB)
MD5: CB65D4A3E028B48A812E704833292259

Izvleček

Dimensionality reduction techniques, such as t-SNE, can construct informative visualizations of high-dimensional data. When working with multiple data sets, a straightforward application of these methods often fails; instead of revealing underlying classes, the resulting visualizations expose data set-specific clusters. To circumvent these batch effects, we propose a principled embedding procedure that enables the addition of new data points into existing t-SNE embeddings. We provide an open-source implementation of the proposed method and demonstrate the utility of our approach with an analysis of six recently published single-cell gene expression data sets containing up to tens of thousands of cells and thousands of genes. We present surprising evidence that our computationally more direct procedure solves the batch effect problem, one of the core challenges in the analysis of gene expression data, and enables the reuse of t-SNE embeddings, paving the way for interpretable visualizations of high-dimensional data sets.

Jezik:	Angleški jezik
Ključne besede:	batch effects, embedding, t-SNE, visualization, single-cell transcriptomics, data integration, domain adaptation
Vrsta gradiva:	Magistrsko delo/naloga
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2019
PID:	20.500.12556/RUL-109337
COBISS.SI-ID:	1538306243
Datum objave v RUL:	30.08.2019
Število ogledov:	1809
Število prenosov:	965
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Dodajanje primerov v referenčno vložitev t-SNE odstrani razlike med različnimi podatkovnimi viri
Tehnike zmanjševanja dimenzij, kot je t-SNE, nam omogočajo gradnjo informativnih vizualizacij visokorazsežnih naborov podatkov. Pri analizi več naborov podatkov hkrati te metode pogosto ne uspejo odkriti pomenljive skupine, temveč izpostavijo nezaželene razlike med podatkovnimi viri. Da bi odstranili vplive posameznih podatkovnih virov in odkrili strukture skupne vsem podatkom, predlagamo teoretično utemeljeno metodo za dodajanje novih primerov v obstoječo vložitev t-SNE. Metodo vključimo v našo odprtokodno implementacijo metode t-SNE in pokažemo na uporabnost predlagane metode na analizi šestih nedavno objavljenih podatkovnih naborov genskih izrazov posameznih celic. Rezultati so presenetljivi; predlagana metoda namreč povsem odstrani vplive različnih podatkovnih virov, ki so eden temeljnih izzivov pri analizi podatkov s področja molekularne biologije. Predlagana tehnika poleg tega tudi omogoča uporabo vnaprej zgrajenih vložitev t-SNE, kar odpira nove možnosti uporabe interpretabilnih vizualizacij visokorazsežnih naborov podatkov.
Ključne besede:	razlike med različnimi podatkovnimi viri, vložitev, t-SNE, vizualizacija, transkriptomika posameznih celic, integracija podatkov, domenska adaptacija

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj