LEARNING OF OBJECT REPRESENTATIONS THROUGH ROBOTIC MANIPULATION

BEVEC, ROBERT

Podrobno

LEARNING OF OBJECT REPRESENTATIONS THROUGH ROBOTIC MANIPULATION
ID BEVEC, ROBERT (Avtor), ID Ude, Aleš (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (11,73 MB)
MD5: AE8BD51F3866B92113230FE4CF4CFDD9

Izvleček

Objects represent basic blocks of the world in which robots and humans exist. Object perception is therefore a key capability of intelligent robotic systems. In this thesis we propose a paradigm that realizes the concept of active exploration for learning of visual representations for object recognition. We adopt the definition, where an object is defined as a physical entity, which can be manipulated and who’s properties move according to the motion imposed on the object. The capability of monitoring and exploring the environment in a wide field of view, while retaining high acuity in the foveal view, is achieved by utilizing a system that uses two actuated cameras per eye. To make 3D reconstruction possible, it is necessary to model the motor system of the cameras and estimate the camera alignment with the robot’s kinematic chain. We propose a calibration method to estimate the location of the cameras on the robot. The robot can then generate sparse point clouds from triangulated features by using constraints of epipolar geometry. We developed a floor detection and learning method that extracts the floor appearance model and masks it in the subsequent images. This prevents point clouds where most features appear on high contrast floor and few features are found on the objects. We propose to generate a map of the observed scene by joining consecutive point clouds into a discrete, equally spaced, 3D grid of voxels. Noise accumulation in the reconstructed map is tackled by using a proposed point cloud filtering method. In order to align point clouds in a common coordinate system, we presented a method that fuses 3D sensor information with inertial data to facilitate point cloud alignment and robot positioning. The robot detects novel object candidates by processing the estimated point cloud in peripheral views. Object hypotheses are generated by searching for surface regularity and feature proximity in the form of geometric structures such as planes, spheres and cylinders. The robot needs additional information to verify or discard the hypotheses about object existence. The information comes from motion induced by a human teacher or by the robot itself while interacting with the object using its manipulation capability, e. g. by applying pushing actions. By assuming that the object is rigid, the robot looks if the pushed candidate moved as a rigid body. This way the robot can confirm (or reject) the object hypothesis and determine features that belong to the object. The selected object candidate found in the peripheral view is also inspected in detail in the foveal view. We designed a controller that directs the cameras towards the hypothesis’ centroid, ensuring that the object candidate is in the center of the foveal view. Feature proximity is used to generate the object candidate in foveal views. Since the foveal view covers a small area, the rigid body motion constraint can be relaxed and all matched features that exhibit motion can be considered confirmed object features. After the robot learns some information about the object, it also becomes feasible to grasp it. We devised a method to systematically observe the object from different views by using successive grasp-rotate-release action cycles to build the object representations. Tactile information is used to detect the contact with the object and control the fingers during the grasp. If the grasping action has succeeded, the robot starts rotating the grasped object to observe it from different viewpoints and accumulate more information about the object. Our final goal is to generate an object representation suitable for object recognition. The robot applies a number of manipulation actions to the selected object candidate to accumulate a sufficient amount of data. The aim of these manipulation actions is to move the object so that it becomes visible from all viewpoints. We propose to build an object representations consisting of individual object snapshot, separately for the peripheral and foveal images. SIFT descriptors are used to describe confirmed object points and we apply the bag-of-features model to create object representations out of the confirmed features. Support vector machines are then used to train a classifier for object recognition. Evaluation of the proposed scientific contributions was performed using two different robotic platforms, a dual-arm humanoid platform called Kukanoid and a drone.

Jezik:	Angleški jezik
Ključne besede:	active perception, interactive learning, foveated vision, active vision, autnomousobject learning, object recognition.
Vrsta gradiva:	Doktorsko delo/naloga
Organizacija:	FE - Fakulteta za elektrotehniko
Leto izida:	2019
PID:	20.500.12556/RUL-113182
Datum objave v RUL:	11.12.2019
Število ogledov:	1818
Število prenosov:	323
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	UČENJE PREDSTAVITEV OBJEKTOV S POMOČJO ROBOTSKIH MANIPULACIJ
V disertaciji smo predstavili nov robotski sistem, ki združuje fovealni vid in robotsko manipulacijo za namen učenja in razpoznave objektov. Robot usklajeno izvaja robotske gibe in premike kamer, kar omogoča obdelavo vizualnih podatkov v perifernem in fovealnem pogledu za ustvarjanje predstavitev objektov. S predstavljeno metodo za detekcijo objektov, robot postavi hipoteze o obstoju objektov, nato pa v slikah določi spremembe v sceni. Spremembe, ki ustrezajo premiku togega telesa, se upoštevajo kot indikator o obstoju objekta. Robot ustvari predstavitev objekta na podlagi vizualnih značilnic potrjene hipoteze o obstoju objekta. Robot spremembe v okolju povzroči avtonomno s potiskanjem ali kombinacijo potiskanja in prijemanja objektov. Pri vodenju robotskih gibov robot zaznava kontakt z objektom s pomočjo povratne informacije taktilnih senzorjev. Spremembe v okolju lahko povzroči tudi učitelj, ki sodeluje v procesu učenja ali razpoznave objektov. Učitelj ima zmožnost natančne manipulacije objektov, zato se robot v sodelovanju z njim uči zelo hitro in učinkovito. S poskusi smo ovrednotili naštete načine manipulacije objektov in pokazali, da so pri učenju vsi uspešno ustvarili predstavitve objektov, ki omogočajo dobro razpoznavo. Učenje z robotsko manipulacijo potrebuje znatno več časa in poskusov kot učenje z učiteljem. Pri razpoznavi objektov so se klasifikatorji pridobljeni z robotsko manipulacijo odrezali malenkost slabše kot klasifikator pridobljen med interakcijo z učiteljem. Primerjali smo tudi različne metode za potrjevanje hipotez o obstoju objekta. Pokazali smo, da je učenje in razpoznava objektov veliko bolj uspešna z uporabo fovealnega vida kot z sistemi, ki uporabljajo le en par kamer. To se še posebej pozna, ko se oddaljenost objekta od robota poveča. B.1 Extended Summary in Slovene 141 Predstavljen sistem predpostavlja, da imajo objekti vizualne značilnice in se premikajo kot togo telo. Iz slik ni potrebno izločati robotske roke in prijemala kot v metodah, ki se učijo z objektom v prijemalu. Manipulacija objektov ne potrebuje biti natančna, saj naša metoda omogoča potrditev obstoja objekta brez predhodnega podatka o spremembi položaja objekta. Edina zahteva je, da je sprememba pogleda objekta dovolj majhna, da lahko robot poišče ujemajoče vizualne značilnice. Razvite metode za učenje objektov so bile prvotno razvite za humanoidne robote s fiksno bazo, vendar se lahko uporabijo tudi na drugih robotskih platformah. Za prikaz te funkcionalnosti smo pristope za detekcijo objektov izvedli na brezpilotnem letalniku (BPL). To je za seboj prineslo dodatne izzive, za katere smo predstavili rešitve. Za primer, ko so objekti postavljeni na tla z velikim številom močnih vizualnih značilnic, smo razvili metodo, za maskiranje tal na slikah. Tako poskrbimo, da se vizualne značilnice objektov ne spustijo v postopku triangulacije točk za detekcijo predmetov. Prav tako smo razvili metodo za izgradnjo 3D načrta delovnega območja, saj BPL ves čas pridobiva nove poglede okolja. Ta metoda zahteva dodaten postopek odstranjevanja šuma imenovan TCVF ter oceno pozicije BPL glede na načrt. Oceno pozicije smo pridobili z združevanjem podatkov iz inercialne merilne enote in rezultatov poravnave oblakov točk z uporabo razširjenega Kalmanovega filtra. S pomočjo predstavljenih rešitev je BPL z uporabo perifernih kamer ustvaril 3D načrt in na podlagi načrta postavil hipoteze o obstoju objektov kot v prej opisanih postopkih. BPL nima možnosti manipulacije objektov, vendar načrt območja vsebuje večje število točk iz različnih pogledov, zato imajo hipoteze več točk, ki pripadajo objektu. Predstavljena metoda predpostavlja da je delovno območje statiˇcno, da objekti niso v gruči, in da je model tal v delovnem območju znan. Z eksperimentalnim vrednotenjem smo pokazali, da je BPL uspešen pri razpoznavi objektov na nivoju kategorij. Pokazali smo tudi primer, ko se tla iz slik ne maskirajo in uspešnost razpoznave močno pade. Predlagan način izgradnje načrta se je dobro izkazal tudi v primeru, ko so nizkocenovne kamere producirale nenatančne oblake točk. Metoda ocenjevanja položaja robota glede na načrt je pri tem odigrala ključno vlogo, saj smo pokazali, da uporaba podatkov iz posameznega vira ne zadostuje za uspešno izgradnjo načrta. Ugotavljamo, da predlagane metode predstavljajo dobro osnovo za robotovo razumevanje objektov v okolju. Metode so primerne za fiksne in mobilne robote, uporaba fovealnega vida pa omogoča očitno prednost v primerjavi s trenutnimi sistemi, ki uporabljajo le en par kamer in nimajo manipulacijskih sposobnosti. Robot je sposoben 142 Appendix avtonomno reševati nejasnosti glede obsega objekta in ustrezno prilagoditi predstavitev objekta, kar kaže na neko stopnjo prilagodljivosti, oziroma inteligence. Menimo, da za razvite rešitve obstaja nabor aplikacij, ki bi lahko imele koristi od takšnih zmogljivosti, zlasti v delno strukturiranih okoljih, ki se pogosto pojavljajo v industriji.
Ključne besede:	interaktivno učenje, aktivna segmentacija, humanoidni vid, aktivnivid, avtonomno učenje objektov, prepoznavanje objektov.

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj