Desplegament i avaluació d’un clúster de big data en un ecosistema HPC
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/110829
Tipus de documentTreball Final de Grau
Data2017-06-19
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
Actualment vivim en l’era de a informació, en un món on cada dia es generen milers i
milers de dades que amaguen grans descobriments. Pel moment només estem començant
a forjar les eines necessàries per transformar aquestes dades en informació valuosa.
Spark és una d’aquestes eines, i amb aquest projecte es pretén ampliar les seves fronteres
simplificant el seu desplegament en qualsevol tipus d’entorn de Supercomputació. Això
ho hem aconseguit mitjançant el desenvolupament d’Spark4HPC, una eina que permet el
desplegament totalment personalitzat d’un clúster Spark per a entorns no orientats al Big
Data. A més, mitjançant diferents benchmarks, aquesta eina ens ha permès comprovar
que Minotauro és una màquina totalment vàlida per a l’execució de tasques Big Data. Actualmente vivimos en la era de la información, en un mundo donde cada día se generan
miles y miles de datos que esconden grandes descubrimientos. De momento sólo estamos
empezando a forjar las herramientas que nos permitirán transformar estos datos en información
valiosa.
Spark es una de estas herramientas, y con este proyecto se pretende ampliar sus fronteras
simplificando su despliegue en cualquier tipo de entorno de Supercomputación. Hemos
conseguido nuestro objetivo mediante el desarrollo de Spark4HPC, una herramienta que
permite el despliegue de un clúster Spark en entornos no orientados al Big Data. Además,
mediante diferentes benchmarks, esta herramienta nos ha permitido comprobar que Minotauro
es una máquina totalmente valida para la ejecución de tareas Big Data. Nowwdays we live in the information era, we live in a world where every day thousands of
bytes of data are generated, hiding huge discoveries. However, at this moment we are only
starting to develop the tools that will help us understand this information.
Spark is one of these tools, and the aim of this project is to push forward its boundaries
by simplifying the deployment of Spark in any Supercomputing environment. We have
achieved our purpose by developing Spark4HPC, a tool that allows the deployment of a
Spark cluster in environments not conceived for Big Data computing. What is more, by
running some benchmarks with this tool, we have been able to prove that Minotauro is a
completely valid machine for running Big Data tasks.
TitulacióGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)
Col·leccions
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
126593.pdf | 1,505Mb | Visualitza/Obre |