Distàncies i dissimilituds entre textos : mètodes de comparació

Valls i Marsal, Joan

Visualitza/Obre

Valls i Marsal_Joan_LCTE.pdf (376,3Kb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Valls i Marsal, Joan

Tutor / directorBécue i Bertaut, Mónica María

Tipus de documentProjecte/Treball Final de Carrera

Data2002-01

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

En aquest projecte hem analitzat un conjunt de dades concret. Aquestes, provenen d’un conjunt d’entrevistes, recollides en format textual, que es van realitzar a un grup de consumidors de l’empresa francesa EDF (Électricité de France). En aquest context, era del nostre interès definir algun tipus de mesura entre textos (entrevistes) que permetés avaluar la semblança lèxica entre aquests. En l’actualitat, hom ha definit diverses mesures amb aquest objectiu, restant encara obert el problema de determinar un indicador definitiu i òptim. Davant d’aquesta situació, ens hem proposat de cercar mètodes per poder comparar diferents definicions de distàncies o dissimilituds entre textos, donada la necessitat d’haver-ne d’escollir-ne una. Més en general, en els estudis estadístics s’ha centrat l’interès en observar i analitzar dos tipus de dades: dades quantitatives (tal com l’edat o el pes) i dades qualitatives (tal com el sexe o la professió). Tanmateix, les dades textuals s’utilitzen cada cop més en diversos camps i, particularment en enquestes d’opinió, sociològiques, … on s’inclouen preguntes obertes. També les dades textuals poden ésser constituïdes per corpus de gran llargada, com fóra el cas de voler analitzar els discursos d’un determinat polític, o diverses obres literàries d’un mateix autor. En aquests casos, es construeixen matrius numèriques que contenen les freqüències en que cadascun dels individus (persones, discursos o obres literàries) han utilitzat cadascuna de les paraules presents en els corpus. És habitual realitzar una depuració del glossari de paraules, eliminant aquelles que no presenten informació lèxica rellevant per a l’investigador, així com establir equivalències lèxiques entre paraules. D’aquesta forma, es redueixen el nombre de formes lèxiques (paraules) i la matriu a analitzar presenta doncs un nombre de columnes reduït. En qualsevol d’aquests casos, hom sol estar interessat en descriure quines relacions existeixen entre els individus, entre les variables i finalment entre els individus i les variables. Quan la quantitat d’informació recollida és extensa, s’ha de recórrer als mètodes descriptius d’anàlisi multivariant, siguin aquests basats en anàlisis factorials o bé en mètodes d’escalament multidimensional.

MatèriesNumerical analysis, Anàlisi numèrica

TitulacióLLICENCIATURA DE CIÈNCIES I TÈCNIQUES ESTADÍSTIQUES (Pla 1999)

URIhttp://hdl.handle.net/2099.1/14555

Col·leccions

Facultat de Matemàtiques i Estadística - Llicenciatura de Ciències i Tècniques Estadístiques (Pla 1999) [69]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
Valls i Marsal_Joan_LCTE.pdf		376,3Kb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Distàncies i dissimilituds entre textos : mètodes de comparació

Visualitza/Obre

Explora