Mostra el registre d'ítem simple

dc.contributorBécue i Bertaut, Mónica María
dc.contributor.authorValls i Marsal, Joan
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa
dc.date.accessioned2012-03-07T11:48:55Z
dc.date.available2012-03-07T11:48:55Z
dc.date.issued2002-01
dc.identifier.urihttp://hdl.handle.net/2099.1/14555
dc.description.abstractEn aquest projecte hem analitzat un conjunt de dades concret. Aquestes, provenen d’un conjunt d’entrevistes, recollides en format textual, que es van realitzar a un grup de consumidors de l’empresa francesa EDF (Électricité de France). En aquest context, era del nostre interès definir algun tipus de mesura entre textos (entrevistes) que permetés avaluar la semblança lèxica entre aquests. En l’actualitat, hom ha definit diverses mesures amb aquest objectiu, restant encara obert el problema de determinar un indicador definitiu i òptim. Davant d’aquesta situació, ens hem proposat de cercar mètodes per poder comparar diferents definicions de distàncies o dissimilituds entre textos, donada la necessitat d’haver-ne d’escollir-ne una. Més en general, en els estudis estadístics s’ha centrat l’interès en observar i analitzar dos tipus de dades: dades quantitatives (tal com l’edat o el pes) i dades qualitatives (tal com el sexe o la professió). Tanmateix, les dades textuals s’utilitzen cada cop més en diversos camps i, particularment en enquestes d’opinió, sociològiques, … on s’inclouen preguntes obertes. També les dades textuals poden ésser constituïdes per corpus de gran llargada, com fóra el cas de voler analitzar els discursos d’un determinat polític, o diverses obres literàries d’un mateix autor. En aquests casos, es construeixen matrius numèriques que contenen les freqüències en que cadascun dels individus (persones, discursos o obres literàries) han utilitzat cadascuna de les paraules presents en els corpus. És habitual realitzar una depuració del glossari de paraules, eliminant aquelles que no presenten informació lèxica rellevant per a l’investigador, així com establir equivalències lèxiques entre paraules. D’aquesta forma, es redueixen el nombre de formes lèxiques (paraules) i la matriu a analitzar presenta doncs un nombre de columnes reduït. En qualsevol d’aquests casos, hom sol estar interessat en descriure quines relacions existeixen entre els individus, entre les variables i finalment entre els individus i les variables. Quan la quantitat d’informació recollida és extensa, s’ha de recórrer als mètodes descriptius d’anàlisi multivariant, siguin aquests basats en anàlisis factorials o bé en mètodes d’escalament multidimensional.
dc.language.isocat
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Spain
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Matemàtiques i estadística::Anàlisi numèrica
dc.subject.lcshNumerical analysis
dc.titleDistàncies i dissimilituds entre textos : mètodes de comparació
dc.typeMaster thesis (pre-Bologna period)
dc.subject.lemacAnàlisi numèrica
dc.subject.amsClassificació AMS::65 Numerical analysis
dc.rights.accessOpen Access
dc.audience.educationlevelEstudis de primer/segon cicle
dc.audience.mediatorUniversitat Politècnica de Catalunya. Facultat de Matemàtiques i Estadística
dc.audience.degreeLLICENCIATURA DE CIÈNCIES I TÈCNIQUES ESTADÍSTIQUES (Pla 1999)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple