Ir al contenido (pulsa Retorno)

Universitat Politècnica de Catalunya

    • Català
    • Castellano
    • English
    • LoginRegisterLog in (no UPC users)
  • mailContact Us
  • world English 
    • Català
    • Castellano
    • English
  • userLogin   
      LoginRegisterLog in (no UPC users)

UPCommons. Global access to UPC knowledge

Banner header
76.492 UPC academic works
You are here:
View Item 
  •   DSpace Home
  • Treballs acadèmics
  • Facultat d'Informàtica de Barcelona
  • Grau en Ciència i Enginyeria de Dades (Pla 2017)
  • View Item
  •   DSpace Home
  • Treballs acadèmics
  • Facultat d'Informàtica de Barcelona
  • Grau en Ciència i Enginyeria de Dades (Pla 2017)
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

A study on universal language-agnostic sentence embeddings and applications

Thumbnail
View/Open
160096.pdf (2,241Mb)
  View UPCommons Usage Statistics
  LA Referencia / Recolecta stats
Includes usage data since 2022
Cita com:
hdl:2117/353821

Show full item record
Ribalta Albado, Maria
Tutor / directorRodríguez Fonollosa, José AdriánMés informacióMés informacióMés informació
Document typeBachelor thesis
Date2021-06-28
Rights accessOpen Access
All rights reserved. This work is protected by the corresponding intellectual and industrial property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public communication or transformation of this work are prohibited without permission of the copyright holder
Abstract
In this project we make a study on universal language agnostic sentence embeddings: internal neural networks sentence representations that are independent with relation to the task and the language. To be more precise, we focus on how combining sentence embeddings of different models can improve benchmarks of well-known tasks. We also confirm our results by applying the methods in two self-created tasks involving a minority language, Occitan. We have used a total of four different architectures that produce four different encodings - each one with its characteristics and dimensions - and explored the behaviour when they are ensembled via concatenation or addition. This methodology is an easy and very simple approach that shows remarkable improvements without further training or fine-tuning at any moment in the experiments, which can represent an inflection point to consider if we need to create new neural networks each time or take advantage of the already existing state of the art. This way, we would save a lot of time, resources and means, since instead of training from scratch complex models, simple linear-cost operations lead to surprising results.
 
En aquest projecte s'ha fet un estudi d'embeddings basats en frases, agnòstics i universals de l'idioma: representacions internes de xarxes neurals de frases que són independents respecte la tasca i la llengua. Més precisament, es centra en com combinar els embeddings de frases de diferents models per tal de millorar puntuacions de referència de tasques ja conegudes. També, es confirmen els resultats aplicant els mètodes en dues tasques originals involucrant un idioma minoritari, l'Occità. S'ha utilitzat un total de quatre arquitectures que generen quatre codificacions diferents, cadascuna amb les seves característiques i dimensions, i s'ha investigat el comportament en combinar-se per mitjà de la concatenació o l'addició. Aquesta metodologia és una aproximació molt fàcil i simple que mostra millores destacables sense més entrenament ni afinat en cap moment dels experiments, el que pot representar un punt d'inflexió a l'hora de considerar si es necessiten crear noves xarxes neuronals cada vegada o aprofitar els millors models ja existents. D'aquesta manera, s'estalviaria molt temps, recursos i mitjans, ja que, en comptes d'entrenar models complexes des de zero, simples operacions de cost lineal comporten resultats sorprenents.
SubjectsNatural language processing (Computer science), Embedded computer systems, Tractament del llenguatge natural (Informàtica), Sistemes incrustats (Informàtica)
DegreeGRAU EN CIÈNCIA I ENGINYERIA DE DADES (Pla 2017)
URIhttp://hdl.handle.net/2117/353821
Collections
  • Facultat d'Informàtica de Barcelona - Grau en Ciència i Enginyeria de Dades (Pla 2017) [163]
  View UPCommons Usage Statistics

Show full item record

FilesDescriptionSizeFormatView
160096.pdf2,241MbPDFView/Open

Browse

This CollectionBy Issue DateAuthorsOther contributionsTitlesSubjectsThis repositoryCommunities & CollectionsBy Issue DateAuthorsOther contributionsTitlesSubjects

© UPC Obrir en finestra nova . Servei de Biblioteques, Publicacions i Arxius

info.biblioteques@upc.edu

  • About This Repository
  • Metadata under:Metadata under CC0
  • Contact Us
  • Send Feedback
  • Privacy Settings
  • Inici de la pàgina