Show simple item record

dc.contributorGiró Nieto, Xavier
dc.contributor.authorCardoner Campi, Lluc
dc.date.accessioned2017-09-15T13:42:48Z
dc.date.available2017-09-15T13:42:48Z
dc.date.issued2017-06-30
dc.identifier.urihttp://hdl.handle.net/2117/107669
dc.description.abstractThis thesis explores the application of a deep learning approach for the prediction of media interestingness. Two different models are investigated, one for the prediction of image and one for the prediction of video interestingness. For the prediction of image interestingness, the ResNet50 network is fine-tuned to obtain best results. First, some layers are added. Next, the model is trained and fine-tuned using data augmentation, dropout, class weights, and changing other hyper parameters. For the prediction of video interestingness, first, features are extracted with a 3D convolutional network. Next a LSTM network is trained and fine-tuned with the features. The final result is a binary label for each image/video: 1 for interesting, 0 for not interesting. Additionally, a confidence value is provided for each prediction. Finally, the Mean Average Precision (MAP) is employed as evaluation metric to estimate the quality of the final results.
dc.description.abstractEsta tesis explora un enfoque con deep learning aplicado a la predicción del nivel de interés de imágenes y vídeos. Se investigan dos modelos, uno para predecir el nivel de interés de imágenes y otro para vídeos. Para la predicción del nivel de interés de imágenes, se adapta la red ResNet50 con el fin de obtener los mejores resultados. En primer lugar, se añaden capas. A continuación, se entrena y se adapta el modelo utilizando aumento de datos, dropout, ponderación de clases y cambiando otros hiperparámetros. Para la predicción del nivel de interés de vídeos, en primer lugar, se extraen características de los vídeos con una red convolucional 3D. A continuación se entrena y se adapta una red LSTM con estas características. El resultado final es una clasificación binaria para cada imagen/vídeo: 1 para "interesante", 0 para "no interesante". Además, se aporta un nivel de confianza en cada predicción. Finalmente, el promedio de la precisión media (MAP) se usa como métrica de evaluación para estimar la calidad de los resultados finales.
dc.description.abstractAquesta tèsi explora un enfocament amb deep learning aplicat a la predicció del nivell d'interès d'imatges i vídeos. S'investiguen dos models, un per a predir el nivell d'interès d'imatges i un altre per a vídeos. Per a la predicció del nivell d'interès d'imatges, s'adapta la xarxa ResNet50 amb la finalitat d'obtenir els millors resultats. En primer lloc, s'afegeixen capes. A continuació, s'entrena i s'adapta el model utilitzant augmentació de les dades, dropout, ponderació de classes i canviant hiperparàmetres. Per a la predicció del nivell d'interès de vídeos, en primer lloc, s'extreuen característiques dels videos amb una xarxa convolucional 3D. A continuació, s'entrena i s'adapta una xarxa LSTM amb aquestes característiques. El resultat final és una classificació binària de cada imatge/vídeo: 1 per a "interessant", 0 per a "no interessant". A més a més, s'aporta un nivell de confiança a cada predicció. Finalment, el promig de la precisió mitja (MAP) s'utilitza com a mètrica d'evaluació per a estimar la qualitat dels resultats finals.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshImage processing
dc.subject.lcshNeural networks (Computer science)
dc.subject.lcshVideo recording
dc.subject.otherDeep learning
dc.subject.othermedia interestingness
dc.subject.otherRed neuronal
dc.subject.otherinterés en media
dc.titleDeep learning for multimedia processing-Predicting media interestingness
dc.typeBachelor thesis
dc.subject.lemacImatges -- Processament
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacVídeo
dc.identifier.slugETSETB-230.127219
dc.rights.accessOpen Access
dc.date.updated2017-09-01T05:50:34Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.contributor.covenanteeTechnische Universität Wien


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Spain
Except where otherwise noted, content on this work is licensed under a Creative Commons license : Attribution-NonCommercial-NoDerivs 3.0 Spain