Comparativa entre MapReduce i Spark
View/Open
Cita com:
hdl:2117/355815
Document typeBachelor thesis
Date2021-06-29
Rights accessOpen Access
All rights reserved. This work is protected by the corresponding intellectual and industrial
property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public
communication or transformation of this work are prohibited without permission of the copyright holder
Abstract
Donada la quantitat de dades disponible actualment, i a causa del seu creixement exponencial, ha sorgit la necessitat d'analitzar aquestes dades per tal que les organitzacions tant públiques com privades puguin extreure decisions més informades. Les eines que més s'utilitzen actualment, per al processament de conjunts de dades fins a centenars de terabytes d'informació, són MapReduce i Spark. En aquest treball d'investigació ens centrarem a automatitzar el procés d'experimentació sobre les eines de processament de dades MapReduce i Spark i realitzarem una comparativa entre aquests sistemes, on tractarem de determinar quin dels dos és el més adequat segons el cas d'ús. L'objectiu del treball és donar una vista objectiva, rigorosa i transparent sobre quina de les eines destaca avaluant uns indicadors en els experiments que són la mantenibilitat o facilitat de desenvolupar codi, el rendiment, la grandària del volum de dades, l'escalabilitat i el consum de recursos que obtindrem executant un conjunt d'experiments d'una forma automatitzada i repetible. Given the amount of data available today and due to its exponential growth, a need for analysis has emerged so both public and private organizations could make more informed decisions. The most used frameworks currently, used to process up to hundreds of terabytes of data, are MapReduce and Spark. In this research, we are going to focus on automating the experimentation process on MapReduce and Spark data processing frameworks and we will compare these, where we will try to determine which one is better suited depending on the use case. The objective of this project is to give an objective, rigorous and transparent view on which framework standouts by assessing some indicators, which are maintainability or ease of code development, performance, dataset size, scalability, and resource consumption, that we will obtain by executing a set of experiments in an automated and repeatable fashion. Dada la cantidad de datos que hay disponible actualmente, y a causa de su crecimiento exponencial, ha surgido la necesidad de analizar estos datos para que las organizaciones tanto públicas como privadas puedan extraer decisiones más informadas. Las herramientas que más se utilizan actualmente, para el procesamiento de conjuntos de datos de hasta centenares de terabytes de información, son MapReduce y Spark. En este trabajo de investigación nos centraremos en automatizar el proceso de experimentación sobre las herramientas de procesamiento de datos MapReduce y Spark y realizaremos una comparativa entre estos sistemas, donde trataremos de determinar cuál de los dos es el más adecuado según el caso de uso. El objetivo del trabajo es dar una vista objetiva, rigurosa y transparente sobre cuál de las herramientas destaca avaluando unos indicadores en los experimentos que son la mantenibilidad o facilidad de desarrollar código, el rendimiento, el tamaño del volumen de datos, la escalabilidad y el consumo de recursos que obtendremos ejecutando un conjunto de experimentos de una forma automatizada y repetible.
DegreeGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)
Collections
Files | Description | Size | Format | View |
---|---|---|---|---|
160070.pdf | 6,682Mb | View/Open |