Study of gene expression representation with Treelets and hierarchical clustering algorithms

Bellot Pujalte, Pau

dc.contributor	Salembier Clairon, Philippe Jean
dc.contributor.author	Bellot Pujalte, Pau
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2011-09-30T08:01:15Z
dc.date.available	2011-09-30T08:01:15Z
dc.date.issued	2011-09-07
dc.identifier.uri	http://hdl.handle.net/2099.1/13018
dc.description.abstract	English: Since the mid-1990's, the field of genomic signal processing has exploded due to the development of DNA microarray technology, which made possible the measurement of mRNA expression of thousands of genes in parallel. Researchers had developed a vast body of knowledge in classification methods. However, microarray data is characterized by extremely high dimensionality and comparatively small number of data points. This makes microarray data analysis quite unique. In this work we have developed various hierarchical clustering algorthims in order to improve the microarray classification task. At first, the original feature set of gene expression values are enriched with new features that are linear combinations of the original ones. These new features are called metagenes and are produced by different proposed hierarchical clustering algorithms. In order to prove the utility of this methodology to classify microarray datasets the building of a reliable classifier via feature selection process is introduced. This methodology has been tested on three public cancer datasets: Colon, Leukemia and Lymphoma. The proposed method has obtained better classification results than if this enhancement is not performed. Confirming the utility of the metagenes generation to improve the final classifier. Secondly, a new technique has been developed in order to use the hierarchical clustering to perform a reduction on the huge microarray datasets, removing the initial genes that will not be relevant for the cancer classification task. The experimental results of this method are also presented and analyzed when it is applied to one public database demonstrating the utility of this new approach.
dc.description.abstract	Castellano: Desde finales de la década de los años 90, el campo de la genómica fue revolucionado debido al desarrollo de la tecnología de los DNA microarrays. Con ésta técnica es posible medir la expresión de los mRNA de miles de genes en paralelo. Los investigadores han desarrollado un vasto conocimiento en los métodos de clasificación. Sin embargo, los microarrays están caracterizados por tener un alto número de genes y un número de muestras comparativamente pequeño. Éste hecho convierte al estudio de los microarrays en único. En éste trabajo se ha desarrollado diversos algoritmos de agrupación jerárquica para mejorar la clasificación de los microarrays. La primera y gran aplicación ha sido el enriquecimiento de las bases de datos originales mediante la introducción de nuevos elementos que son obtenidos como combinaciones lineales los genes originales. Estos nuevos elementos se han denominado metagenes y son producidos mediante los diferentes algoritmos propuestos de agrupación jerárquica. A fin de demostrar la utilidad de esta metodología para clasificar las bases de datos de microarrays se ha introducido la construcción de un clasificador fiable a través de un proceso de selección de características. Esta metodología ha sido probada en tres bases de datos de cáncer públicas: Colon, Leucemia y Linfoma. El método propuesto ha obtenido mejores resultados en la clasificación que cuando éste enriquecimiento no se ha llevado a cabo. De ésta manera se ha confirmado la utilidad de la generación de los metagenes para mejorar el clasificador. En segundo lugar, se ha desarrollado una nueva técnica para realizar una reducción inicial en las bases de datos, consistente en eliminar los genes que no son relevantes para realizar la clasificación. Éste método se ha aplicado a una de las bases de datos públicas, y los resultados experimentales se presentan y analizan demostrando la utilidad de éste nuevo enfoque.
dc.description.abstract	Català: Des de finals de la dècada dels 90, el camp de la genómica va ser revolucionat gràcies al desenvolupament de la tecnología dels DNA microarrays. Amb aquesta tècnica es possible mesurar l'expresió dels mRNA de milers de gens en paralel. Els investigadors han desenvolupat un ample coneixement dels mètodes de classificació. No obstant, els microarrays estàn caracteritzats per tindre una alt nombre de genes i comparativament un nombre petit de mostres. Aquest fet fa que l'estudi dels microarrays sigui únic. Amb aquest treball s' han desenvolupat diversos algoritmes d'agrupació jeràrquica per millorar la classificació dels microarrays. La primera i gran aplicació ha sigut l'enriqueiment de les bases de dades originals mitjançant l'introducció de nous elements que s'obtenen com combinacions lineals dels gens originals. Aquests nous elements han sigut denominats com metagens i són calculats mitjantçant els diferents algoritmes d'agrupació jerárquica proposats. Per a demostrar l'utilitat d'aquesta metodología per a classificar les bases de dades de microarrays s'ha introduït la construcció d'un classificador fiable mitjantçant un procés de selecció de característiques. Aquesta metodología ha sigut aplicada a tres bases de dades públiques de càncer: Colon, Leucèmia i Limfoma. El métode proposat ha obtenigut millors resultats en la classificació que quan aquest enriqueiment no ha sigut realitzat. D'aquesta manera s'ha confirmat l'utilitat de la generació dels metagens per a millorar els classificadors. En segon lloc, s'ha desenvolupat una nova técnica per a realitzar una reducció inicial en les bases de dades, aquest mètode consisteix en l'eliminació dels gens que no són relevants a l'hora de realitzar la classificació dels pacients. Aquest mètode ha sigut aplicat a una de les bases de dades públiques. Els resultats experimentals es presenten i analitzen demostrant l'utilitat d'aquesta nova tècnica.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Spain
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Informàtica::Aplicacions de la informàtica::Bioinformàtica
dc.subject.lcsh	Human gene mapping
dc.subject.lcsh	Cancer -- Prevention
dc.subject.other	Genetic algorithms
dc.subject.other	Genomes - Data processing
dc.subject.other	Data Mining
dc.subject.other	Signal processing
dc.subject.other	Algoritmos genéticos
dc.subject.other	Genomas -- Procesado de datos
dc.subject.other	Minería de datos
dc.subject.other	Tratamiento de la señal
dc.subject.other	Algorismes genètics
dc.subject.other	Genomes -- Processament de dades
dc.subject.other	Mineria de dades
dc.subject.other	Tractament del senyal
dc.title	Study of gene expression representation with Treelets and hierarchical clustering algorithms
dc.type	Master thesis (pre-Bologna period)
dc.subject.lemac	Genoma humà -- Mapatge
dc.subject.lemac	Cancer -- Prevencio
dc.identifier.slug	ETSETB-230.77776
dc.rights.access	Open Access
dc.date.updated	2011-09-12T06:02:03Z
dc.audience.educationlevel	Estudis de primer/segon cicle
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	ENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)

Fitxers d'aquest items

Nom:: Study_of_gene_expression_repre ...
Mida:: 3,430Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Enginyeria de Telecomunicació (Pla 1992) [1.590]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Study of gene expression representation with Treelets and hierarchical clustering algorithms

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora