Učenje globokih nevronskih mrež za problem stereo vida

ŽBONTAR, JURE

Podrobno

Učenje globokih nevronskih mrež za problem stereo vida
ID ŽBONTAR, JURE (Avtor), ID LeCun, Yann (Mentor) Več o mentorju... Povezava se odpre v novem oknu

, ID Demšar, Janez (Komentor)

PDF - Predstavitvena datoteka, prenos (12,73 MB)
MD5: 947F09F9BDAE2F384620CF0F639B086F
PID: 20.500.12556/rul/8a4ee846-bde4-4bf5-865f-cef014e9a6d2

Izvleček

V pričujoči doktorski disertaciji predstavimo metodo za izračun cene ujemanja za problem stereo vida. Stereo podatkovne množice, na primer KITTI in Middlebury, so v zadnjih nekaj letih postale dovolj velike, da se lahko problema lotimo z metodami, ki temeljijo na učenju. Naš pristop temelji na uporabi globoke konvolucijske nevronske mreže in algoritma za nadzorovano strojno učenje. Učno množico zgradimo iz javno dostopnih stereo podatkovnih množic. Učni primer sestoji iz para slikovnih zaplat in pripada enemu izmed dveh razredov: pozitivnemu, ko sta slikovni zaplati v korespondenci in negativnemu, ko nista. Predstavljeni sta dve arhitekturi konvolucijskih nevronskih mrež za učenje podobnosti. Prva arhitektura je hitrejša od druge, vendar je izračunana globinska slika v povprečju manj natančna. V obeh primerih je vhod v nevronsko mrežo par slikovnih zaplat, izhod pa mera podobnosti med njima. Obe arhitekturi vsebujeta konvolucijski nevronski mreži, ki slikovni zaplati predstavita z vektorjem značilk. Podobnost med slikovnima zaplatama je izračunana na vektorju značilk, namesto na svetlostih posameznih slikovnih elementov. Prva arhitektura vektorja značilk primerja s kosinusno podobnostjo, medtem ko druga arhitektura vektorja primerja z naučeno večnivojsko nevronsko mrežo. Razvito metodo primerjamo z uveljavljenimi metodami na treh podatkovnih množicah -- KITTI 2012, KITTI 2015 in Middlebury -- in ugotovimo, da je naša metoda najnatančnejša na vse treh podatkovnih množicah.

Jezik:	Angleški jezik
Ključne besede:	stereo, cena ujemanja, učenje podobnosti, nadzorovano učenje, konvolucijska nevronska mreža
Vrsta gradiva:	Doktorska disertacija
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2016
PID:	20.500.12556/RUL-84276
COBISS.SI-ID:	1537065923
Datum objave v RUL:	27.07.2016
Število ogledov:	3534
Število prenosov:	1093
Metapodatki:
:	ŽBONTAR, JURE, 2016, Učenje globokih nevronskih mrež za problem stereo vida [na spletu]. Doktorska disertacija. [Dostopano 2 april 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=84276 Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Training deep neural networks for stereo vision
We present a method for extracting depth information from a rectified image pair. Our approach focuses on the first stage of many stereo algorithms: the matching cost computation. We approach the problem by learning a similarity measure on small image patches using a convolutional neural network. Training is carried out in a supervised manner by constructing a binary classification data set with examples of similar and dissimilar pairs of patches. We examine two network architectures for learning a similarity measure on image patches. The first architecture is faster than the second, but produces disparity maps that are slightly less accurate. In both cases, the input to the network is a pair of small image patches and the output is a measure of similarity between them. Both architectures contain a trainable feature extractor that represents each image patch with a feature vector. The similarity between patches is measured on the feature vectors instead of the raw image intensity values. The fast architecture uses a fixed similarity measure to compare the two feature vectors, while the accurate architecture attempts to learn a good similarity measure on feature vectors. The output of the convolutional neural network is used to initialize the stereo matching cost. A series of post-processing steps follow: cross-based cost aggregation, semiglobal matching, a left-right consistency check, subpixel enhancement, a median filter, and a bilateral filter. We evaluate our method on the KITTI 2012, KITTI 2015, and Middlebury stereo data sets and show that it outperforms other approaches on all three data sets.
Ključne besede:	stereo, matching cost, similarity learning, supervised learning, convolutional neural networks

Podobna dela

Podobna dela v RUL:	Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež Nadzorovano strojno učenje s poudarkom na globokih nevronskih mrežah Transkripcija klavirske glasbe z globokim učenjem Izvajanje naučenih globokih nevronskih mrež v vgrajenih sistemih Rule extraction from deep neural networks
Podobna dela v drugih slovenskih zbirkah:	Priprava učne množice fotografij in njihova klasifikacija z uporabo globokih nevronskih mrež Primerjava različnih načinov učenja globokih nevronskih mrež v avtonomni vožnji Neintruzivna identikacija padcev s pomočjo pametnih tal Globoko učenje in igra dama Razpoznavanje čustvenih izrazov s pomočjo globokih nevronskih mrež

Nazaj