Mostra el registre d'ítem simple

dc.contributorPardàs Feliu, Montse
dc.contributorCasas Pla, Josep Ramon
dc.contributor.authorLin, Xiao
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2018-09-12T07:47:53Z
dc.date.available2018-09-12T07:47:53Z
dc.date.issued2018-07-20
dc.identifier.citationLin, X. Semantic and generic object segmentation for scene analysis using RGB-D Data. Tesi doctoral, UPC, Departament de Teoria del Senyal i Comunicacions, 2018. DOI 10.5821/dissertation-2117-121036.
dc.identifier.urihttp://hdl.handle.net/2117/121036
dc.description.abstractIn this thesis, we study RGB-D based segmentation problems from different perspectives in terms of the input data. Apart from the basic photometric and geometric information contained in the RGB-D data, also semantic and temporal information are usually considered in an RGB-D based segmentation system. The first part of this thesis focuses on an RGB-D based semantic segmentation problem, where the predefined semantics and annotated training data are available. First, we review how RGB-D data has been exploited in the state of the art to help training classifiers in a semantic segmentation tasks. Inspired by these works, we follow a multi-task learning schema, where semantic segmentation and depth estimation are jointly tackled in a Convolutional Neural Network (CNN). Since semantic segmentation and depth estimation are two highly correlated tasks, approaching them jointly can be mutually beneficial. In this case, depth information along with the segmentation annotation in the training data helps better defining the target of the training process of the classifier, instead of feeding the system blindly with an extra input channel. We design a novel hybrid CNN architecture by investigating the common attributes as well as the distinction for depth estimation and semantic segmentation. The proposed architecture is tested and compared with state of the art approaches in different datasets. Although outstanding results are achieved in semantic segmentation, the limitations in these approaches are also obvious. Semantic segmentation strongly relies on predefined semantics and a large amount of annotated data, which may not be available in more general applications. On the other hand, classical image segmentation tackles the segmentation task in a more general way. But classical approaches hardly obtain object level segmentation due to the lack of higher level knowledge. Thus, in the second part of this thesis, we focus on an RGB-D based generic instance segmentation problem where temporal information is available from the RGB-D video while no semantic information is provided. We present a novel generic segmentation approach for 3D point cloud video (stream data) thoroughly exploiting the explicit geometry and temporal correspondences in RGB-D. The proposed approach is validated and compared with state of the art generic segmentation approaches in different datasets. Finally, in the third part of this thesis, we present a method which combines the advantages in both semantic segmentation and generic segmentation, where we discover object instances using the generic approach and model them by learning from the few discovered examples by applying the approach of semantic segmentation. To do so, we employ the one shot learning technique, which performs knowledge transfer from a generally trained model to a specific instance model. The learned instance models generate robust features in distinguishing different instances, which is fed to the generic segmentation approach to perform improved segmentation. The approach is validated with experiments conducted on a carefully selected dataset.
dc.description.abstractEn aquesta tesi, estudiem problemes de segmentació basats en RGB-D des de diferents perspectives pel que fa a les dades d'entrada. A part de la informació fotomètrica i geomètrica bàsica que conté les dades RGB-D, també es considera normalment informació semàntica i temporal en un sistema de segmentació basat en RGB-D. La primera part d'aquesta tesi se centra en un problema de segmentació semàntica basat en RGB-D, on hi ha disponibles les dades semàntiques predefinides i la informació d'entrenament anotada. En primer lloc, revisem com les dades RGB-D s'han explotat en l'estat de l'art per ajudar a entrenar classificadors en tasques de segmentació semàntica. Inspirats en aquests treballs, seguim un esquema d'aprenentatge multidisciplinar, on la segmentació semàntica i l'estimació de profunditat es tracten conjuntament en una Xarxa Neural Convolucional (CNN). Atès que la segmentació semàntica i l'estimació de profunditat són dues tasques altament correlacionades, l'aproximació a les mateixes pot ser mútuament beneficiosa. En aquest cas, la informació de profunditat juntament amb l'anotació de segmentació en les dades d'entrenament ajuda a definir millor l'objectiu del procés d'entrenament del classificador, en comptes d'alimentar el sistema cegament amb un canal d'entrada addicional. Dissenyem una nova arquitectura híbrida CNN investigant els atributs comuns, així com la distinció per a l'estimació de profunditat i la segmentació semàntica. L'arquitectura proposada es prova i es compara amb l'estat de l'art en diferents conjunts de dades. Encara que s'obtenen resultats excel·lents en la segmentació semàntica, les limitacions d'aquests enfocaments també són evidents. La segmentació semàntica es recolza fortament en la semàntica predefinida i una gran quantitat de dades anotades, que potser no estaran disponibles en aplicacions més generals. D'altra banda, la segmentació d'imatge clàssica aborda la tasca de segmentació d'una manera més general. Però els enfocaments clàssics gairebé no aconsegueixen la segmentació a nivell d'objectes a causa de la manca de coneixements de nivell superior. Així, en la segona part d'aquesta tesi, ens centrem en un problema de segmentació d'instàncies genèric basat en RGB-D, on la informació temporal està disponible a partir del vídeo RGB-D, mentre que no es proporciona informació semàntica. Presentem un nou enfocament genèric de segmentació per a vídeos de núvols de punts 3D explotant a fons la geometria explícita i les correspondències temporals en RGB-D. L'enfocament proposat es valida i es compara amb enfocaments de segmentació genèrica de l'estat de l'art en diferents conjunts de dades. Finalment, en la tercera part d'aquesta tesi, presentem un mètode que combina els avantatges tant en la segmentació semàntica com en la segmentació genèrica, on descobrim instàncies de l'objecte utilitzant l'enfocament genèric i les modelem mitjançant l'aprenentatge dels pocs exemples descoberts aplicant l'enfocament de segmentació semàntica. Per fer-ho, utilitzem la tècnica d'aprenentatge d'un tir, que realitza la transferència de coneixement d'un model entrenat de forma genèrica a un model d'instància específic. Els models apresos d'instància generen funcions robustes per distingir diferents instàncies, que alimenten la segmentació genèrica de segmentació per a la seva millora. L'enfocament es valida amb experiments realitzats en un conjunt de dades acuradament seleccionat.
dc.format.extent155 p.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.sourceTDX (Tesis Doctorals en Xarxa)
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.titleSemantic and generic object segmentation for scene analysis using RGB-D Data
dc.typeDoctoral thesis
dc.subject.lemacVídeo
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacSemàntica
dc.identifier.doi10.5821/dissertation-2117-121036
dc.rights.accessOpen Access
dc.description.versionPostprint (published version)
dc.identifier.tdxhttp://hdl.handle.net/10803/620762


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple