Cardinality Estimation in Shared-Nothing Parallel Dataflow Engines

Carregant...
Miniatura
El pots comprar en digital a:
El pots comprar en paper a:

Projectes de recerca

Unitats organitzatives

Número de la revista

Títol de la revista

ISSN de la revista

Títol del volum

Correu electrònic de l'autor

Tribunal avaluador

Realitzat a/amb

Tipus de document

Projecte Final de Màster Oficial

Condicions d'accés

Accés obert

Llicència

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització de la persona titular dels drets

Assignatures relacionades

Assignatures relacionades

Publicacions relacionades

Datasets relacionats

Datasets relacionats

Projecte CCD

Abstract

Shared nothing parallel data ow systems aim to bridge the gap between MapReduce and RDBMSs by combining parallel execution of second order functions with operator based optimizations. In parallel systems, job latency is strongly affected by data shuffling and unbalanced data across nodes, thus the degree of parallelism and the data partition- ing functions must be carefully considered when choosing optimization strategies. However, it is hard to make good optimization choices with- out any information about the distribution of the data. We attempt to overcome this challenge in shared nothing parallel data ows by tracking statistics of data sets during query runtime. We use data streaming algo- rithms to track statistics so as to affect job latency as little as possible. We discuss how collected statistics can potentially be used to improve execution plans during runtime.

Descripció

Provinença

Titulació

MÀSTER UNIVERSITARI ERASMUS MUNDUS EN TECNOLOGIES DE LA INFORMACIÓ PER A LA INTEL·LIGÈNCIA EMPRESARIAL (Pla 2012)

Document relacionat

Citació

Ajut

DOI

Versió de l'editor

Altres identificadors

Referències