dc.contributor | Belanche Muñoz, Luis Antonio |
dc.contributor.author | Hernández González, Jerónimo |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics |
dc.date.accessioned | 2009-10-30T11:02:37Z |
dc.date.available | 2009-10-30T11:02:37Z |
dc.date.issued | 2009-06-23 |
dc.identifier.uri | http://hdl.handle.net/2099.1/7667 |
dc.description.abstract | El objetivo principal de este proyecto final de carrera, que lleva por nombre
“Algoritmos de clustering basados en el concepto de Líder”, consiste en obtener
diferentes versiones de algoritmos de clustering modificando el algoritmo del
Líder, asegurándose de que se conservan sus características básicas y buenas
propiedades, modificándolo con el objetivo de aumentar las buenas
propiedades y además resolver algunos de los problemas que le son
conocidos.
Un algoritmo de clustering trata de formar grupos con las instancias que recibe
como entrada buscando una cierta estructura en los datos. Se caracteriza por
ser una técnica no supervisada, es decir, no tiene en cuenta información de
pertenencia previa de una instancia a un grupo.
El algoritmo del Líder, en el cual se basa este proyecto, es un algoritmo clásico
de clustering que realiza una sola pasada sobre las instancias de entrada.
Sobre cada una comprueba su similitud con ciertas instancias “clave” ya
pasadas, los líderes, que son los representantes de cada grupo de instancias
creado hasta el momento. En base a los resultados de la comparación se toma
una decisión: si la instancia es suficientemente similar a un líder, esta se
incorpora al grupo de dicho líder. En cambio, si no es suficiente similar a ningún
líder se crea un nuevo grupo con esa instancia como líder.
El algoritmo básico del Líder tiene entre sus principales ventajas su rapidez de
ejecución y el no necesitar más que una pasada sobre el conjunto de datos de
entrada. Por el contrario, son varios los comportamientos que se podrían
considerar defectuosos, como puede ser la dependencia del orden de los datos
de entrada, así como otros inconvenientes en el funcionamiento interno del
algoritmo que le otorgan una serie de propiedades que no son deseables (o
más bien, le impiden contar con una serie de propiedades que se podrían
considerar básicas y que son deseables para un algoritmo de este tipo).
El algoritmo del Líder basa su funcionamiento en la comparación de las nuevas
instancias con los líderes. Para llevar a cabo estas comparaciones hay dos
opciones, usar medidas de distancia o usar medidas de similitud, siendo esta
última la elegida en el proyecto.
El trabajo consta de dos ramas concretas: estudio teórico-reflexivo y desarrollo
en pruebas del método para tratar de resolver sus inconvenientes por un lado,
y, luego, estudio algorítmico del método con la intención de mejorar su
rendimiento dentro de los límites del lenguaje R, el elegido para el desarrollo
del proyecto. Todo el proyecto se acompaña de un estudio de artículos de
diversos autores que otorgan un poco de luz a la hora de tomar ciertas
decisiones, conocer experiencias similares o buscar nuevas soluciones a
problemas que se nos plantean. |
dc.language.iso | spa |
dc.publisher | Universitat Politècnica de Catalunya |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Spain |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
dc.subject | Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Representació del coneixement |
dc.subject.lcsh | Multivariate analysis |
dc.subject.other | Representació de formes |
dc.subject.other | Classificació automàtica |
dc.title | Algoritmos de clustering basados en el concepto de líder |
dc.type | Master thesis (pre-Bologna period) |
dc.subject.lemac | Anàlisi multivariable |
dc.rights.access | Open Access |
dc.audience.educationlevel | Estudis de primer/segon cicle |
dc.audience.mediator | Facultat d'Informàtica de Barcelona |
dc.audience.degree | ENGINYERIA INFORMÀTICA (Pla 2003) |