Desplegament i avaluació d’un clúster de big data en un ecosistema HPC

View/Open
Document typeBachelor thesis
Date2017-06-19
Rights accessOpen Access
All rights reserved. This work is protected by the corresponding intellectual and industrial
property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public
communication or transformation of this work are prohibited without permission of the copyright holder
Abstract
Actualment vivim en l’era de a informació, en un món on cada dia es generen milers i
milers de dades que amaguen grans descobriments. Pel moment només estem començant
a forjar les eines necessàries per transformar aquestes dades en informació valuosa.
Spark és una d’aquestes eines, i amb aquest projecte es pretén ampliar les seves fronteres
simplificant el seu desplegament en qualsevol tipus d’entorn de Supercomputació. Això
ho hem aconseguit mitjançant el desenvolupament d’Spark4HPC, una eina que permet el
desplegament totalment personalitzat d’un clúster Spark per a entorns no orientats al Big
Data. A més, mitjançant diferents benchmarks, aquesta eina ens ha permès comprovar
que Minotauro és una màquina totalment vàlida per a l’execució de tasques Big Data. Actualmente vivimos en la era de la información, en un mundo donde cada día se generan
miles y miles de datos que esconden grandes descubrimientos. De momento sólo estamos
empezando a forjar las herramientas que nos permitirán transformar estos datos en información
valiosa.
Spark es una de estas herramientas, y con este proyecto se pretende ampliar sus fronteras
simplificando su despliegue en cualquier tipo de entorno de Supercomputación. Hemos
conseguido nuestro objetivo mediante el desarrollo de Spark4HPC, una herramienta que
permite el despliegue de un clúster Spark en entornos no orientados al Big Data. Además,
mediante diferentes benchmarks, esta herramienta nos ha permitido comprobar que Minotauro
es una máquina totalmente valida para la ejecución de tareas Big Data. Nowwdays we live in the information era, we live in a world where every day thousands of
bytes of data are generated, hiding huge discoveries. However, at this moment we are only
starting to develop the tools that will help us understand this information.
Spark is one of these tools, and the aim of this project is to push forward its boundaries
by simplifying the deployment of Spark in any Supercomputing environment. We have
achieved our purpose by developing Spark4HPC, a tool that allows the deployment of a
Spark cluster in environments not conceived for Big Data computing. What is more, by
running some benchmarks with this tool, we have been able to prove that Minotauro is a
completely valid machine for running Big Data tasks.
DegreeGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)
Collections
Files | Description | Size | Format | View |
---|---|---|---|---|
126593.pdf | 1,505Mb | View/Open |