Distàncies i dissimilituds entre textos : mètodes de comparació
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2099.1/14555
Tutor / directorBécue i Bertaut, Mónica María
Tipus de documentProjecte/Treball Final de Carrera
Data2002-01
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
En aquest projecte hem analitzat un conjunt de dades concret. Aquestes, provenen d’un conjunt d’entrevistes, recollides en format textual, que es van realitzar a un grup de consumidors de l’empresa francesa EDF (Électricité de France). En aquest context, era del nostre interès definir algun tipus de mesura entre textos (entrevistes) que permetés avaluar la semblança lèxica entre aquests. En l’actualitat, hom ha definit diverses mesures amb aquest objectiu, restant encara obert el problema de determinar un indicador definitiu i òptim. Davant d’aquesta situació, ens hem proposat de cercar mètodes per poder comparar diferents definicions de distàncies o dissimilituds entre textos, donada la necessitat d’haver-ne d’escollir-ne una.
Més en general, en els estudis estadístics s’ha centrat l’interès en observar i analitzar dos tipus de dades: dades quantitatives (tal com l’edat o el pes) i dades qualitatives (tal com el sexe o la professió). Tanmateix, les dades textuals s’utilitzen cada cop més en diversos camps i, particularment en enquestes d’opinió, sociològiques, … on s’inclouen preguntes obertes. També les dades textuals poden ésser constituïdes per corpus de gran llargada, com fóra el cas de voler analitzar els discursos d’un determinat polític, o diverses obres literàries d’un mateix autor. En aquests casos, es construeixen matrius numèriques que contenen les freqüències en que cadascun dels individus (persones, discursos o obres literàries) han utilitzat cadascuna de les paraules presents en els corpus. És habitual realitzar una depuració del glossari de paraules, eliminant aquelles que no presenten informació lèxica rellevant per a l’investigador, així com establir equivalències lèxiques entre paraules. D’aquesta forma, es redueixen el nombre de formes lèxiques (paraules) i la matriu a analitzar presenta doncs un nombre de columnes reduït.
En qualsevol d’aquests casos, hom sol estar interessat en descriure quines relacions existeixen entre els individus, entre les variables i finalment entre els individus i les variables. Quan la quantitat d’informació recollida és extensa, s’ha de recórrer als mètodes descriptius d’anàlisi multivariant, siguin aquests basats en anàlisis factorials o bé en mètodes d’escalament multidimensional.
TitulacióLLICENCIATURA DE CIÈNCIES I TÈCNIQUES ESTADÍSTIQUES (Pla 1999)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Valls i Marsal_Joan_LCTE.pdf | 376,3Kb | Visualitza/Obre |