3D Bounding box detection from monocular images

View/Open
Document typeMaster thesis
Date2019-05-08
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
Object detection is particularly important in robotic applications that require interaction with the environment. Although 2D object detection methods obtain accurate results, these are not enough to provide a complete description of the 3D scenario. Therefore, many models have recently showed promising progresses in this challenging field [5, 22, 25, 30]. In this work, the goal is to predict 3D bounding boxes from single images without using temporal data nor any explicit depth estimation. We propose an approach for 3D monocular object detection based on Deep3DBox [20]. We aim to replace the geometric constraints taken into account to predict the 3D location of objects by a deep learning module. Moreover, we undertake a study on the different parameters for the modules that are used to predict dimensions and orientation of objects. We conduct experiments in order to search for the best hyperparameters of our model for KITTI [7] cars and we reported and compared our results on KITTI and the challenging NuScenes [2] benchmarks for cars and pedestrians with other state of the art methods. Therefore, we conclude that our approach performs on par with similar methods [22, 30] and improves Deep3DBox [20] results. La detecció d'objectes és particularment important en aplicacions robòtiques que requereixen interacció amb l'entorn. Tot i que s'han obtingut resultats acurats en detecció d'objectes en 2D, aquests no són suficients per a donar una descripcó completa de l'entorn en 3D. De totes maneres, força models han demostrat progressos prometedors en aquest camp [5, 22, 25, 30]. L'objectiu d'aquest treball és predir bounding boxes 3D a partir d'imatges sense utilitzar informació temporal ni cap predicció de profunditat explícitament. Proposem un model per detecció monocular d'objectes 3D basada en Deep3DBox [20]. Volem substituir les restriccions geomètriques usades per predir la localització en 3D dels objectes per un mòdul de deep learning. A més, duem a terme un estudi sobre els diferents paràmetres dels mòduls utilitzats per a predir les dimensions i l'orientació dels objectes. Hem realitzat experiments per tal de cercar els millors hiperparàmetres pel nostre model pels cotxes de KITTI [7] i hem reportat i comparat els nostres resultats sobre KITTI i NuScenes en cotxes i vianants amb els altres metòdes de l'state of the art. Finalment, concloem que el nostre model obté resultats al nivell dels mètodes similars [22, 30] i millora els resultats de Deep3DBox [20]
SubjectsMachine learning, Computer vision, Autonomous vehicles, Aprenentatge automàtic, Visió per ordinador, Vehicles autònoms
DegreeMÀSTER UNIVERSITARI EN ENGINYERIA DE TELECOMUNICACIÓ (Pla 2013)
Files | Description | Size | Format | View |
---|---|---|---|---|
msc_marcel.pdf | 26,92Mb | View/Open |