The introduction of depth cameras in the mass market contributed to make computer vision applicable to many real world applications, such as human interaction in virtual environments, autonomous driving, robotics and 3D reconstruction. All these problems were originally tackled by means of standard cameras, but the intrinsic ambiguity in the bidimensional images led to the development of depth cameras technologies. Stereo vision was first introduced to provide an estimate of the 3D geometry of the scene. Structured light depth cameras were developed to use the same concepts of stereo vision but overcome some of the problems of passive technologies. Finally, Time-of-Flight (ToF) depth cameras solve the same depth estimation problem by using a different technology. This thesis focuses on the acquisition of depth data from multiple sensors and presents techniques to efficiently combine the information of different acquisition systems. The three main technologies developed to provide depth estimation are first reviewed, presenting operating principles and practical issues of each family of sensors. The use of multiple sensors then is investigated, providing practical solutions to the problem of 3D reconstruction and gesture recognition. Data from stereo vision systems and ToF depth cameras are combined together to provide a higher quality depth map. A confidence measure of depth data from the two systems is used to guide the depth data fusion. The lack of datasets with data from multiple sensors is addressed by proposing a system for the collection of data and ground truth depth, and a tool to generate synthetic data from standard cameras and ToF depth cameras. For gesture recognition, a depth camera is paired with a Leap Motion device to boost the performance of the recognition task. A set of features from the two devices is used in a classification framework based on Support Vector Machines and Random Forests.

L'introduzione di sensori di profondità nel mercato di massa ha contribuito a rendere la visione artificiale applicabile in molte applicazioni reali, come l'interazione dell'uomo in ambienti virtuali, la guida autonoma, la robotica e la ricostruzione 3D. Tutti questi problemi sono stati originariamente affrontati con l'utilizzo di normali telecamere ma l'ambiguità intrinseca delle immagini bidimensionali ha portato allo sviluppo di tecnologie per sensori di profondità. La visione stereoscopica è stata la prima tecnologia a permettere di stimare la geometria tridimensionale della scena. Sensori a luce strutturata sono stati sviluppati per sfruttare gli stessi principi della visione stereoscopica ma risolvere alcuni problemi dei dispositivi passivi. Infine i sensori a tempo di volo cercano di risolvere lo stesso problema di stima della distanza utilizzando una differente tecnologia. Questa tesi si focalizza nell'acquisizione di dati di profondità da diversi sensori e presenta tecniche per combinare efficacemente le informazioni dei diversi sistemi di acquisizione. Per prima cosa le tre principali tecnologie sviluppate per fornire una stima di profondità sono esaminate in dettaglio, presentando i principi di funzionamento e i problemi dei diversi sistemi. Successivamente è stato studiato l'utilizzo congiunto di sensori, fornendo delle soluzioni pratiche al problema della ricostruzione 3D e del riconoscimento dei gesti. I dati di un sistema stereoscopico e di un sensore a tempo di volo sono stati combinati per fornire una mappa di profondità più precisa. Per ognuno dei due sensori sono state sviluppate delle mappe di confidenza utilizzate per controllare la fusione delle mappe di profondità. La mancanza di collezioni con dati di diversi sensori è stato affrontato proponendo un sistema per la collezione di dati da diversi sensori e la generazione di mappe di profondità molto precise, oltre ad un sistema per la generazioni di dati sintetici per sistemi stereoscopici e sensori a tempo di volo. Per il problema del riconoscimento dei gesti è stato sviluppato un sistema per l'utilizzo congiunto di un sensore di profondità e un sensore Leap Motion, per migliorare le prestazioni dell'attività riconoscimento. Un insieme di descrittori ricavato dai due sistemi è stato utilizzato per la classificazione dei gesti con un sistema basato su Support Vector Machines e Random Forests.

3D data fusion from multiple sensors and its applications / Marin, Giulio. - (2017 Jan 31).

3D data fusion from multiple sensors and its applications

Marin, Giulio
2017

Abstract

L'introduzione di sensori di profondità nel mercato di massa ha contribuito a rendere la visione artificiale applicabile in molte applicazioni reali, come l'interazione dell'uomo in ambienti virtuali, la guida autonoma, la robotica e la ricostruzione 3D. Tutti questi problemi sono stati originariamente affrontati con l'utilizzo di normali telecamere ma l'ambiguità intrinseca delle immagini bidimensionali ha portato allo sviluppo di tecnologie per sensori di profondità. La visione stereoscopica è stata la prima tecnologia a permettere di stimare la geometria tridimensionale della scena. Sensori a luce strutturata sono stati sviluppati per sfruttare gli stessi principi della visione stereoscopica ma risolvere alcuni problemi dei dispositivi passivi. Infine i sensori a tempo di volo cercano di risolvere lo stesso problema di stima della distanza utilizzando una differente tecnologia. Questa tesi si focalizza nell'acquisizione di dati di profondità da diversi sensori e presenta tecniche per combinare efficacemente le informazioni dei diversi sistemi di acquisizione. Per prima cosa le tre principali tecnologie sviluppate per fornire una stima di profondità sono esaminate in dettaglio, presentando i principi di funzionamento e i problemi dei diversi sistemi. Successivamente è stato studiato l'utilizzo congiunto di sensori, fornendo delle soluzioni pratiche al problema della ricostruzione 3D e del riconoscimento dei gesti. I dati di un sistema stereoscopico e di un sensore a tempo di volo sono stati combinati per fornire una mappa di profondità più precisa. Per ognuno dei due sensori sono state sviluppate delle mappe di confidenza utilizzate per controllare la fusione delle mappe di profondità. La mancanza di collezioni con dati di diversi sensori è stato affrontato proponendo un sistema per la collezione di dati da diversi sensori e la generazione di mappe di profondità molto precise, oltre ad un sistema per la generazioni di dati sintetici per sistemi stereoscopici e sensori a tempo di volo. Per il problema del riconoscimento dei gesti è stato sviluppato un sistema per l'utilizzo congiunto di un sensore di profondità e un sensore Leap Motion, per migliorare le prestazioni dell'attività riconoscimento. Un insieme di descrittori ricavato dai due sistemi è stato utilizzato per la classificazione dei gesti con un sistema basato su Support Vector Machines e Random Forests.
31-gen-2017
The introduction of depth cameras in the mass market contributed to make computer vision applicable to many real world applications, such as human interaction in virtual environments, autonomous driving, robotics and 3D reconstruction. All these problems were originally tackled by means of standard cameras, but the intrinsic ambiguity in the bidimensional images led to the development of depth cameras technologies. Stereo vision was first introduced to provide an estimate of the 3D geometry of the scene. Structured light depth cameras were developed to use the same concepts of stereo vision but overcome some of the problems of passive technologies. Finally, Time-of-Flight (ToF) depth cameras solve the same depth estimation problem by using a different technology. This thesis focuses on the acquisition of depth data from multiple sensors and presents techniques to efficiently combine the information of different acquisition systems. The three main technologies developed to provide depth estimation are first reviewed, presenting operating principles and practical issues of each family of sensors. The use of multiple sensors then is investigated, providing practical solutions to the problem of 3D reconstruction and gesture recognition. Data from stereo vision systems and ToF depth cameras are combined together to provide a higher quality depth map. A confidence measure of depth data from the two systems is used to guide the depth data fusion. The lack of datasets with data from multiple sensors is addressed by proposing a system for the collection of data and ground truth depth, and a tool to generate synthetic data from standard cameras and ToF depth cameras. For gesture recognition, a depth camera is paired with a Leap Motion device to boost the performance of the recognition task. A set of features from the two devices is used in a classification framework based on Support Vector Machines and Random Forests.
Depth camera, stereo, ToF, Leap Motion, gesture recognition, 3D reconstruction, SVM, data fusion, confidence
3D data fusion from multiple sensors and its applications / Marin, Giulio. - (2017 Jan 31).
File in questo prodotto:
File Dimensione Formato  
marin_giulio_thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 15.39 MB
Formato Adobe PDF
15.39 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3425367
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
  • OpenAlex ND
social impact