Desenvolupament d'un software de reconeixement visual de productes en temps real

El Boukre, Ibrahim; Nieto Broceño, Marcos

dc.contributor	Catala Roig, Neus
dc.contributor.author	El Boukre, Ibrahim
dc.contributor.author	Nieto Broceño, Marcos
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics
dc.date.accessioned	2021-02-11T11:31:26Z
dc.date.available	2021-02-11T11:31:26Z
dc.date.issued	2021-02-04
dc.identifier.uri	http://hdl.handle.net/2117/339424
dc.description.abstract	La visió artificial és un camp de la intel·ligència artificial que ensenya a les computadores a veure i entendre el contingut de les imatges. Tot i que els orígens d'aquest camp es remunten als anys seixanta, no és fins a l'actualitat que, gràcies als grans avenços tecnològics, la visió artificial es troba en el seu apogeu i tot sembla indicar que ni molt menys ha tocat sostre. En aquest projecte, partint de la voluntat de desenvolupar un software que sigui útil per la societat i en especial faciliti ni que sigui una mica el dia a dia d'aquelles persones amb problemes de visió, farem ús de les tècniques i algorismes d'última generació de visió artificial amb l'objectiu de generar un software que ajudi als usuaris en una tasca tan quotidiana com és fer la compra. Aquest software s'encarregarà principalment de detectar productes del supermercat simplement enfocant-los amb la càmera del telèfon mòbil i donarà a l'usuari la informació del producte tant per pantalla com de forma audiodescriptiva fent servir la tecnologia Text-to-speech. En aquest projecte ens endinsem de ple en la investigació de l'estat de l'art dels algoritmes de detecció d'objectes i n'escollirem el que s'ajusti millor als nostres requisits, dissenyarem i implementarem l'algorisme i també realitzarem diverses proves que ens ajudaran a definir els paràmetres òptims per entrenar els models del nostre detector. A més a més comentarem tota una sèrie de possibles futures millores que per qüestions temporals no podem abastar en aquest projecte i, per últim, compartirem les nostres conclusions, les quals enfocarem des d'una perspectiva tecnològica, social i personal.
dc.description.abstract	La visión artificial es un campo de la inteligencia artificial que enseña a los computadores a ver y entender el contenido de las imágenes. Aunque los orígenes de este campo se remontan a los años sesenta, no es hasta la actualidad que, gracias a los grandes avances tecnológicos, la visión artificial se encuentra en su apogeo y nada parece indicar que ya haya tocado techo. En este proyecto, partiendo de la voluntad de desarrollar un software que sea útil para la sociedad y en especial facilite aunque sea un poco el día a día de aquellas personas con problemas de visión, haremos uso de las técnicas y algoritmos de última generación de visión artificial con el objetivo de generar un software que ayude a los usuarios en una tarea tan cotidiana como es hacer la compra. Este software se encargará principalmente de detectar productos del supermercado simplemente enfocándolos con la cámara del teléfono móvil y dará al usuario la información del producto tanto por pantalla como de forma audiodescriptiva utilizando la tecnología Text-to-speech. En este proyecto nos adentramos de lleno en la investigación del estado del arte de los algoritmos de detección de objetos y escogeremos el que se ajuste mejor a nuestros requisitos, diseñaremos e implementaremos el algoritmo y también realizaremos varias pruebas que nos ayudarán a definir los parámetros óptimos para entrenar los modelos de nuestro detector. Además comentaremos toda una serie de posibles futuras mejoras que por cuestiones temporales no podemos abarcar en este proyecto y, por último, compartiremos nuestras conclusiones, las cuales enfocaremos desde una perspectiva tecnológica, social y personal.
dc.description.abstract	Computer vision is a field of artificial intelligence that teaches computers to see and understand the content of images. Although the origins of this field date back to the 1960s, it is not until today that, thanks to technological breakthroughs, computer vision is at its peak and nothing seems to indicate that it has reached its apogee. In this project, with the aim of developing a software that is useful for society and especially to ease the daily life of people with vision problems, we will make use of the latest generation of artificial vision techniques and algorithms in order to generate a software that helps users in an everyday task such as shopping. This software will be mainly responsible for detecting products in the supermarket by simply focusing on them with the camera of the cell phone and it will provide the user the product information both on screen and in an audio-descriptive way using Text-to-speech technology. In this project we will go deep into the investigation of the state of the art of object detection algorithms and we will choose the one that fits best to our requirements, we will also design and implement the algorithm and perform several tests that will help us to define the optimal parameters to train the models of our detector. Furthermore, we will discuss a whole series of possible future improvements that due to time constraints we cannot cover in this project, and finally we will share our conclusions, approaching them from a technological, social and personal perspective.
dc.language.iso	cat
dc.publisher	Universitat Politècnica de Catalunya
dc.subject	Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
dc.subject.lcsh	People with visual disabilities
dc.subject.lcsh	Computer software
dc.subject.lcsh	Neural networks (Computer science)
dc.subject.lcsh	Artificial intelligence
dc.subject.lcsh	Human face recognition (Computer science)
dc.subject.other	Intel·ligència artificial
dc.subject.other	Aprenentatge automàtic
dc.subject.other	Visió artificial
dc.subject.other	YOLOv5
dc.subject.other	Temps real
dc.subject.other	Detecció d’objectes
dc.subject.other	Xarxes neuronals convolucionals
dc.subject.other	Software
dc.subject.other	Productes de supermercat
dc.subject.other	Data augmentation
dc.title	Desenvolupament d'un software de reconeixement visual de productes en temps real
dc.type	Bachelor thesis
dc.subject.lemac	Discapacitats visuals
dc.subject.lemac	Programari
dc.subject.lemac	Xarxes neuronals (Informàtica)
dc.subject.lemac	Intel·ligència artificial
dc.subject.lemac	Reconeixement facial (Informàtica)
dc.subject.lemac	Visualització tridimensional
dc.identifier.slug	PRISMA-158594
dc.identifier.slug	PRISMA-158586
dc.rights.access	Open Access
dc.date.updated	2021-02-10T19:32:42Z
dc.audience.educationlevel	Grau
dc.audience.mediator	Escola Politècnica Superior d'Enginyeria de Vilanova i la Geltrú
dc.audience.degree	GRAU EN ENGINYERIA INFORMÀTICA (Pla 2018)

Fitxers d'aquest items

Nom:: Memoria_IbrahimElBoukre_Marcos ...
Mida:: 7,513Mb
Format:: PDF

Visualitza/Obre

Nom:: Article_IbrahimElBoukre_Marcos ...
Mida:: 1,285Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Grau en Enginyeria Informàtica (Pla 2018) [54]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Desenvolupament d'un software de reconeixement visual de productes en temps real

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora