Programmable and scalable reductions on clusters
Visualitza/Obre
Ciesko.pdf (249,2Kb) (Accés restringit)
Sol·licita una còpia a l'autor
Què és aquest botó?
Aquest botó permet demanar una còpia d'un document restringit a l'autor. Es mostra quan:
- Disposem del correu electrònic de l'autor
- El document té una mida inferior a 20 Mb
- Es tracta d'un document d'accés restringit per decisió de l'autor o d'un document d'accés restringit per política de l'editorial
Cita com:
hdl:2117/23241
Tipus de documentText en actes de congrés
Data publicació2013
EditorInstitute of Electrical and Electronics Engineers (IEEE)
Condicions d'accésAccés restringit per política de l'editorial
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
ProjecteCOMPUTACION DE ALTAS PRESTACIONES V (MEC-TIN2007-60625)
TERAFLUX - Exploiting dataflow parallelism in Teradevice Computing (EC-FP7-249013)
TERAFLUX - Exploiting dataflow parallelism in Teradevice Computing (EC-FP7-249013)
Abstract
Reductions matter and they are here to stay. Wide adoption of parallel processing hardware in a broad range of computer applications has encouraged recent research efforts on their efficient parallelization. Furthermore, trends towards high productivity languages in mainstream computing increases the demand for efficient programming support. In this paper we present a new approach on parallel reductions for distributed memory systems that provides both scalability and programmability. Using OmpSs, a task-based parallel programming model, the developer has the ability to express scalable reductions through a single pragma annotation. This pragma annotation is applicable for tasks as well as for work-sharing constructs (with implicit tasking) and instructs the compiler to generate the required runtime calls. The supporting runtime handles data and task distribution, parallel execution and data reduction. Scalability is achieved through a software cache that maximizes local and temporal data reuse and allows overlapped computation and communication. Results confirm scalability for up to 32 12-core cluster nodes.
CitacióCiesko, J. [et al.]. Programmable and scalable reductions on clusters. A: IEEE International Parallel and Distributed Processing Symposium. "IEEE 27th International Parallel and Distributed Processing Symposium: 20–24 May 2013, Boston, Massachusetts: proceedings". Boston: Institute of Electrical and Electronics Engineers (IEEE), 2013, p. 560-568.
ISBN978-0-7685-4971-2
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Ciesko.pdf | 249,2Kb | Accés restringit |