Mostra el registre d'ítem simple

dc.contributorCatala Roig, Neus
dc.contributor.authorEl Boukre, Ibrahim
dc.contributor.authorNieto Broceño, Marcos
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics
dc.date.accessioned2021-02-11T11:31:26Z
dc.date.available2021-02-11T11:31:26Z
dc.date.issued2021-02-04
dc.identifier.urihttp://hdl.handle.net/2117/339424
dc.description.abstractLa visió artificial és un camp de la intel·ligència artificial que ensenya a les computadores a veure i entendre el contingut de les imatges. Tot i que els orígens d'aquest camp es remunten als anys seixanta, no és fins a l'actualitat que, gràcies als grans avenços tecnològics, la visió artificial es troba en el seu apogeu i tot sembla indicar que ni molt menys ha tocat sostre. En aquest projecte, partint de la voluntat de desenvolupar un software que sigui útil per la societat i en especial faciliti ni que sigui una mica el dia a dia d'aquelles persones amb problemes de visió, farem ús de les tècniques i algorismes d'última generació de visió artificial amb l'objectiu de generar un software que ajudi als usuaris en una tasca tan quotidiana com és fer la compra. Aquest software s'encarregarà principalment de detectar productes del supermercat simplement enfocant-los amb la càmera del telèfon mòbil i donarà a l'usuari la informació del producte tant per pantalla com de forma audiodescriptiva fent servir la tecnologia Text-to-speech. En aquest projecte ens endinsem de ple en la investigació de l'estat de l'art dels algoritmes de detecció d'objectes i n'escollirem el que s'ajusti millor als nostres requisits, dissenyarem i implementarem l'algorisme i també realitzarem diverses proves que ens ajudaran a definir els paràmetres òptims per entrenar els models del nostre detector. A més a més comentarem tota una sèrie de possibles futures millores que per qüestions temporals no podem abastar en aquest projecte i, per últim, compartirem les nostres conclusions, les quals enfocarem des d'una perspectiva tecnològica, social i personal.
dc.description.abstractLa visión artificial es un campo de la inteligencia artificial que enseña a los computadores a ver y entender el contenido de las imágenes. Aunque los orígenes de este campo se remontan a los años sesenta, no es hasta la actualidad que, gracias a los grandes avances tecnológicos, la visión artificial se encuentra en su apogeo y nada parece indicar que ya haya tocado techo. En este proyecto, partiendo de la voluntad de desarrollar un software que sea útil para la sociedad y en especial facilite aunque sea un poco el día a día de aquellas personas con problemas de visión, haremos uso de las técnicas y algoritmos de última generación de visión artificial con el objetivo de generar un software que ayude a los usuarios en una tarea tan cotidiana como es hacer la compra. Este software se encargará principalmente de detectar productos del supermercado simplemente enfocándolos con la cámara del teléfono móvil y dará al usuario la información del producto tanto por pantalla como de forma audiodescriptiva utilizando la tecnología Text-to-speech. En este proyecto nos adentramos de lleno en la investigación del estado del arte de los algoritmos de detección de objetos y escogeremos el que se ajuste mejor a nuestros requisitos, diseñaremos e implementaremos el algoritmo y también realizaremos varias pruebas que nos ayudarán a definir los parámetros óptimos para entrenar los modelos de nuestro detector. Además comentaremos toda una serie de posibles futuras mejoras que por cuestiones temporales no podemos abarcar en este proyecto y, por último, compartiremos nuestras conclusiones, las cuales enfocaremos desde una perspectiva tecnológica, social y personal.
dc.description.abstractComputer vision is a field of artificial intelligence that teaches computers to see and understand the content of images. Although the origins of this field date back to the 1960s, it is not until today that, thanks to technological breakthroughs, computer vision is at its peak and nothing seems to indicate that it has reached its apogee. In this project, with the aim of developing a software that is useful for society and especially to ease the daily life of people with vision problems, we will make use of the latest generation of artificial vision techniques and algorithms in order to generate a software that helps users in an everyday task such as shopping. This software will be mainly responsible for detecting products in the supermarket by simply focusing on them with the camera of the cell phone and it will provide the user the product information both on screen and in an audio-descriptive way using Text-to-speech technology. In this project we will go deep into the investigation of the state of the art of object detection algorithms and we will choose the one that fits best to our requirements, we will also design and implement the algorithm and perform several tests that will help us to define the optimal parameters to train the models of our detector. Furthermore, we will discuss a whole series of possible future improvements that due to time constraints we cannot cover in this project, and finally we will share our conclusions, approaching them from a technological, social and personal perspective.
dc.language.isocat
dc.publisherUniversitat Politècnica de Catalunya
dc.subjectÀrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
dc.subject.lcshPeople with visual disabilities
dc.subject.lcshComputer software
dc.subject.lcshNeural networks (Computer science)
dc.subject.lcshArtificial intelligence
dc.subject.lcshHuman face recognition (Computer science)
dc.subject.otherIntel·ligència artificial
dc.subject.otherAprenentatge automàtic
dc.subject.otherVisió artificial
dc.subject.otherYOLOv5
dc.subject.otherTemps real
dc.subject.otherDetecció d’objectes
dc.subject.otherXarxes neuronals convolucionals
dc.subject.otherSoftware
dc.subject.otherProductes de supermercat
dc.subject.otherData augmentation
dc.titleDesenvolupament d'un software de reconeixement visual de productes en temps real
dc.typeBachelor thesis
dc.subject.lemacDiscapacitats visuals
dc.subject.lemacProgramari
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacIntel·ligència artificial
dc.subject.lemacReconeixement facial (Informàtica)
dc.subject.lemacVisualització tridimensional
dc.identifier.slugPRISMA-158594
dc.identifier.slugPRISMA-158586
dc.rights.accessOpen Access
dc.date.updated2021-02-10T19:32:42Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Politècnica Superior d'Enginyeria de Vilanova i la Geltrú
dc.audience.degreeGRAU EN ENGINYERIA INFORMÀTICA (Pla 2018)


Fitxers d'aquest items

Thumbnail
Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple