Grasp prediction with convolutional neural networks

CovenanteeNortheastern University
Document typeBachelor thesis
Date2017-08
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
This thesis explores the application of a deep learning computer vision approach for grasp classification in order to improve hand prosthesis control. First, a criterion based on prehensile human hand is adopted and object images from different datasets are labeled to a type of grasp. Then, two different convolutional neural networks architectures using weights from pre-trained models are designed in order to deal with single or fusion streams of information. Next, architectures are trained with color and encoded depth images. Finally, offline and online results for both architectures and type of data are reported. Results show that it is possible to classify objects into grasps without recognizing them or having any knowledge about their dimensions. Este trabajo explora la aplicación de técnicas de aprendizaje profundo por visión por computador en la clasificación de tipos de asimientos con el objetivo de mejorar el funcionamiento de una prótesis de mano. Inicialmente, se adopta un criterio basado en la prensibilidad de la mano humana para etiquetar imágenes de objetos de diversos datasets con un tipo de asimiento. A continuación, se diseñan dos arquitecturas utilizando pesos de modelos pre-entrenados capaces de manejar uno o dos tipos de información al mismo tiempo. Después, las arquitecturas se entrenan con imágenes de color e imágenes de profundidad previamente codificadas. Finalmente, se muestran los resultados obtenidos por las diversas arquitecturas y los tipos de datos. Se demuestra que es posible clasificar objetos, que no son reconocidos y de los cuales no se tiene ninguna información acerca de sus dimensiones, en distintos tipos de asimientos. Aquest treball explora l'aplicació de tècniques d'aprenentatge profund per a visió per computador en la classificació de diferents tipus de presa d'objectes per tal de millorar el funcionament d'una pròtesi de mà. Inicialment, s'adopta un criteri basat en la prensibilitat de la mà humana per tal d'etiquetar imatges d'objectes de diversos datasets amb tipus de presa. A continuació, es dissenyen dues arquitectures, les quals utilitzen pesos de models pre-entrenats, capaces de gestionar un o dos tipus d'informació al mateix temps. Després, les arquitectures són entrenades amb imatges de color i imatges de profunditat prèviament codificades. Finalment, es mostren els resultats obtinguts per les diverses arquitectures i els tipus de dades. Es demostra que és possible classificar objectes, que no són reconeguts i dels qual no es té cap informació sobre les seves dimensions, en diferents tipus de preses.
Description
Project to be developed in the mobility exchange program at Northeastern University. Details will be defined there.
SubjectsRobot vision, Computer vision, Neural networks (Computer science), Visió artificial (Robòtica), Visió per ordinador, Pròtesis, Xarxes neuronals (Informàtica)
DegreeGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)
Files | Description | Size | Format | View |
---|---|---|---|---|
Degree_Thesis_Francesc_Lluis.pdf | 1,211Mb | View/Open |