Cost-aware prediction of uncorrected DRAM errors in the field

Carregant...
Miniatura
El pots comprar en digital a:
El pots comprar en paper a:

Projectes de recerca

Unitats organitzatives

Número de la revista

Títol de la revista

ISSN de la revista

Títol del volum

Col·laborador

Tribunal avaluador

Realitzat a/amb

Tipus de document

Text en actes de congrés

Data publicació

Editor

Institute of Electrical and Electronics Engineers (IEEE)

Condicions d'accés

Accés obert

item.page.rightslicense

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització de la persona titular dels drets

Assignatures relacionades

Assignatures relacionades

Publicacions relacionades

Datasets relacionats

Datasets relacionats

Projecte CCD

Abstract

This paper presents and evaluates a method to predict DRAM uncorrected errors, a leading cause of hardware failures in large-scale HPC clusters. The method uses a random forest classifier, which was trained and evaluated using error logs from two years of production of the MareNostrum 3 supercomputer. By enabling the system to take measures to mitigate node failures, our method reduces lost compute time by up to 57%, a net saving of 21,000 node–hours per year. We release all source code as open source. We also discuss and clarify aspects of methodology that are essential for a DRAM prediction method to be useful in practice. We explain why standard evaluation metrics, such as precision and recall, are insufficient, and base the evaluation on a cost–benefit analysis. This methodology can help ensure that any DRAM error predictor is clear from training bias and has a clear cost–benefit calculation.

Descripció

Persones/entitats

Document relacionat

item.page.versionof

Citació

Boixaderas, I. [et al.]. Cost-aware prediction of uncorrected DRAM errors in the field. A: International Conference for High Performance Computing, Networking, Storage and Analysis. "Proceedings of SC20: The International Conference for High Performance Computing, Networking, Storage and Analysis: Virtual Event, November 9-19, 2020". Institute of Electrical and Electronics Engineers (IEEE), 2020, p. 1-15. ISBN 978-1-7281-9998-6. DOI 10.1109/SC41405.2020.00065.

Ajut

Forma part

Dipòsit legal

ISBN

978-1-7281-9998-6

ISSN

Altres identificadors

Referències