Predictive reliability and fault management in exascale systems: State of the art and perspectives
Visualitza/Obre
Cita com:
hdl:2117/330352
Tipus de documentArticle
Data publicació2020-09
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
ProjecteRECIPE - REliable power and time-ConstraInts-aware Predictive management of heterogeneous Exascale systems (EC-H2020-801137)
RYC-2013-14717 (MINECO-RYC-2013-14717)
RYC-2013-14717 (MINECO-RYC-2013-14717)
Abstract
Performance and power constraints come together with Complementary Metal Oxide Semiconductor technology scaling in future Exascale systems. Technology scaling makes each individual transistor more prone to faults and, due to the exponential increase in the number of devices per chip, to higher system fault rates. Consequently, High-performance Computing (HPC) systems need to integrate prediction, detection, and recovery mechanisms to cope with faults efficiently. This article reviews fault detection, fault prediction, and recovery techniques in HPC systems, from electronics to system level. We analyze their strengths and limitations. Finally, we identify the promising paths to meet the reliability levels of Exascale systems.
CitacióCanal, R. [et al.]. Predictive reliability and fault management in exascale systems: State of the art and perspectives. "ACM computing surveys", Setembre 2020, vol. 53, núm. 5, p. 95:1-95:32.
ISSN0360-0300
Versió de l'editorhttps://dl.acm.org/doi/abs/10.1145/3403956
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
CSUR-final-submission.pdf | 647,4Kb | Visualitza/Obre |