Ir al contenido (pulsa Retorno)

Universitat Politècnica de Catalunya

    • Català
    • Castellano
    • English
    • LoginRegisterLog in (no UPC users)
  • mailContact Us
  • world English 
    • Català
    • Castellano
    • English
  • userLogin   
      LoginRegisterLog in (no UPC users)

UPCommons. Global access to UPC knowledge

63.123 UPC academic works
You are here:
View Item 
  •   DSpace Home
  • Treballs acadèmics
  • Centre de Formació Interdisciplinària Superior
  • Grau en Enginyeria Física + Grau en Matemàtiques
  • View Item
  •   DSpace Home
  • Treballs acadèmics
  • Centre de Formació Interdisciplinària Superior
  • Grau en Enginyeria Física + Grau en Matemàtiques
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Aligning books and movies through cross-modal neural networks

Thumbnail
View/Open
Memoria_TFG.pdf (9,257Mb)
Share:
 
  View Usage Statistics
Cita com:
hdl:2117/350209

Show full item record
Hernandez Caralt, Mireia
Author's e-mailmireiahernandezcaraltarrobaoutlook.es
Tutor / directorGiró Nieto, XavierMés informacióMés informació; Torralba, Antonio
CovenanteeMassachusetts Institute of Technology
Document typeBachelor thesis
Date2021-05-27
Rights accessOpen Access
Attribution-NonCommercial-NoDerivs 3.0 Spain
Except where otherwise noted, content on this work is licensed under a Creative Commons license : Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
Aquesta tesi explora les millors pràctiques per alinear llibres amb la seva adaptació cinematogràfica utilitzant xarxes neuronals cros-modals. Primer col·lectem dades per la classificació de paràgrafs basada en el seu contingut i construïm un model per separar el llibre en diàlegs i frases visuals. Avaluem l'ús d'embeddings de frases i altres mesures de similitud entre textos per alinear els diàlegs del llibre amb els subtítols de les pel·lícules. Per alinear les frases visuals del llibre amb els fotogrames de les pel·lícules explorem dos mètodes. Per una banda fem retrieval de la pel·lícula al llibre fent servir la similitud del cosinus entre embeddings cros-modals locals i pre-entrenats. Per altra banda proposem aprendre un espai d'embeddings cros-modal i jeràrquic que pugui representar un context més llarg i entendre la dinàmica de la història a alt nivell. Entrenem una xarxa neuronal amb el dataset de MoviesBooks utilitzant diverses funcions de contrastive learning i introduïm un mètode d'instàncies múltiples aprendre bones representacions locals tot i tenir errors d'alineament en les dades d'entrenament.
 
Esta tesis explora las mejores prácticas para alinear libros con su adaptación cinematográfica utilizando redes neuronales cros-modales. Primero colectamos datos para la clasificación de párrafos basada en su contenido y construimos un modelo para separar el libro en diálogos y frases visuales. Evaluamos el uso de embeddings de frases y otras medidas de similitud entre textos para alinear los diálogos del libro con los subtítulos de las películas. Para alinear las frases visuales del libro con los fotogramas de las películas exploramos dos enfoques. Por un lado hacemos retrieval de la película al libro usando la similitud del coseno entre embeddings cros-modales locales pre-entrenados. Por el otro lado proponemos aprender un espacio de embeddings cros-modal y jerárquico que pueda representar un contexto más largo y entender la dinámica de la historia a alto nivel. Entrenamos la red neuronal con el dataset MoviesBooks usando varias funciones de contrastive learning e introducimos un enfoque de múltiples instancias para aprender buenas representaciones locales pese a tener errores de alineamiento en los datos de entrenamiento.
 
This thesis explores best practices to align books with their movie adaptations using cross-modal neural networks. First of all we collect a dataset for topic-based paragraph classification and build a model to separate books into a dialog and a visual stream. We evaluate the use of sentence embeddings and other scores for text similarity to align the book dialog stream with movie subtitles. To align the book visual stream with movie frames we explore two approaches. On one hand we perform retrieval from movie to book using cosine similarity between pre-trained cross-modal local embeddings. On the other we propose to learn a cross-modal hierarchical embedding space that can represent a longer context and understand high-level story dynamics. We fine-tune the network with the MoviesBooks dataset using several contrastive learning losses and introduce a multi-instance approach for local embeddings that allows to learn good representations despite misalignments in training data.
SubjectsArtificial intelligence, Intel·ligència artificial
DegreeGRAU EN ENGINYERIA FÍSICA/GRAU EN MATEMÀTIQUES
Location
1: 123 Massachusetts Ave, Cambridge, MA 02142, Estats Units d'Amèrica
URIhttp://hdl.handle.net/2117/350209
Collections
  • Centre de Formació Interdisciplinària Superior - Grau en Enginyeria Física + Grau en Matemàtiques [52]
Share:
 
  View Usage Statistics

Show full item record

FilesDescriptionSizeFormatView
Memoria_TFG.pdf9,257MbPDFView/Open

Browse

This CollectionBy Issue DateAuthorsOther contributionsTitlesSubjectsThis repositoryCommunities & CollectionsBy Issue DateAuthorsOther contributionsTitlesSubjects

© UPC Obrir en finestra nova . Servei de Biblioteques, Publicacions i Arxius

info.biblioteques@upc.edu

  • About This Repository
  • Contact Us
  • Send Feedback
  • Inici de la pàgina