Understanding human interaction in TV shows
View/Open
Cita com:
hdl:2117/332545
Author's e-mailbernat.felip1gmail.com
CovenanteeMassachusetts Institute of Technology
Document typeBachelor thesis
Date2020-10-16
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
En aquest projecte, diversos models d’aprenentatge profund d’última generació s'han fet servir per extreure informació útil de programes de televisió per en un futur poder analitzar les interaccions de les persones que es mostren al programa. Més precisament, models d'identificació de persones, llocs i locutor s'han entrenat i executat en episodis de la temporada 21 del programa Big Brother. Quan va ser possible, cadascun d’aquests problemes individuals s'ha intentat abordar de la manera més automàtica, però quan calia (i també per recopilar dades reals) la plataforma de crowd-sourcing Amazon Mechanical Turk s'ha utilitzat. Finalment, tota la informació recopilada s'ha agregat en una senzilla interfície de visualització que respon a consultes sobre les persones, el lloc o el locutor presents a cada fotografia. En este proyecto, varios modelos de aprendizaje profundo de última generación han sido usados para extraer información de programas de televisión con el fin de, en un futuro, poder analizar las interacciones de las personas mostradas en el programa. Más precisamente, modelos de identificación de persona, lugar y locutor han sido entrenados y ejecutados en episodios de la temporada 21 del programa Big Brother. Cuando fue posible, cada uno de estos problemas individuales ha sido abordado de la manera más automática, pero cuando fue necesario (y también para recopilar datos reales) la plataforma de crowd-sourcing Amazon Mechanical Turk ha sido usada. Finalmente, toda la información recopilada ha sido agregada en una sencilla interfaz de visualización que responde a consultas sobre las personas, el lugar o el locutor presentes en cada toma. In this project, several state of the art deep learning models were used to extract usable information from TV shows in order to, in the future, be able analyze the interactions of the people shown in the program. More precisely, person, place and speaker identification models were trained and run on episodes from the 21st season of the Big Brother program. When possible, each of these individual problems were tackled in the most automatic way but when needed (and also to collect ground truth data) the crowd-sourcing platform Amazon Mechanical Turk was used. Finally, all the collected information was aggregated into a simple visualization interface which answers to queries regarding the people, place or speaker present in each shot.
DegreeGRAU EN ENGINYERIA INFORMÀTICA/GRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ