Programmer-directed partial redundancy for resilient HPC
Visualitza/Obre
Programmer-directed Partial Redundancy for Resilient.pdf (237,9Kb) (Accés restringit)
Sol·licita una còpia a l'autor
Què és aquest botó?
Aquest botó permet demanar una còpia d'un document restringit a l'autor. Es mostra quan:
- Disposem del correu electrònic de l'autor
- El document té una mida inferior a 20 Mb
- Es tracta d'un document d'accés restringit per decisió de l'autor o d'un document d'accés restringit per política de l'editorial
Cita com:
hdl:2117/91299
Tipus de documentText en actes de congrés
Data publicació2015
EditorAssociation for Computing Machinery (ACM)
Condicions d'accésAccés restringit per política de l'editorial
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
In this work we propose partial task replication and check-pointing for task-parallel HPC applications to mitigate silent data corruption (SDC) errors. As the complete replication of all application tasks can be prohibitive due to resource costs, we introduce programmer-directed selective replication mechanism to provide fault-tolerance while decreasing costs. Results show that our scheme detects and corrects around 65% of SDC errors with only 4% overhead on average.
CitacióSubasi, O., Arias, F.J., Unsal, O., Labarta, J., Cristal, A. Programmer-directed partial redundancy for resilient HPC. A: ACM International Conference on Computing Frontiers. "Proceedings of the 12th ACM International Conference on Computing Frontiers, CF 2015". Ischia: Association for Computing Machinery (ACM), 2015.
ISBN9781450333580
Versió de l'editorhttp://dl.acm.org/citation.cfm?doid=2742854.2742903
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Programmer-dire ... dundancy for Resilient.pdf | 237,9Kb | Accés restringit |