Gestión de límites de energía globales para centros HPC
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/329231
Tipus de documentTreball Final de Grau
Data2020-07
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
Actualmente la gestión energética se ha convertido en un tema fundamental de investigación en el ámbito HPC, pues los centros de supercomputación son grandes consumidores de energía, lo cual es un desafío tanto a nivel ecológico como económico. Sin embargo, la gestión de la energía no es algo banal ya que influyen otros factores que no solamente residen en la arquitectura en la cual se trabaja. Por este motivo es necesaria la ayuda de un software que se encargue de esta gestión. Este proyecto se ha desarrollado dentro del contexto de Energy Aware Runtime (EAR), el cual es un software cuya función es gestionar la energía en centros HPC. EAR está formado por diversos componentes que se coordinan entre sí, entre los cuales se encuentra el Global Manager, que es el núcleo de este trabajo. El Global Manager es el encargado de garantizar que el consumo energético durante un periodo de tiempo en un sistema no sobrepase un límite energético establecido, cuya funcionalidad recibe el nombre de energy capping. Este componente puede funcionar en dos modos distintos: modo manual y modo automático. El primero se limitará a controlar el consumo energético que está habiendo en el sistema, dejando que el administrador de sistemas sea quien realice las acciones que considere convenientes para el cumplimiento de los límites. El modo automático, además de monitorizar, es capaz de adaptar la configuración del sistema dinámicamente. El modo manual se encuentra cubierto y en producción. Por contra, para el modo automático solo se encuentra un diseño inicial y carece de una evaluación, por lo que el objetivo de este trabajo es permitir que el Global Manager pueda operar automáticamente, buscando ser más flexibles. Para ello se ha realizado una evaluación del estado inicial en que, en función de los resultados, se ha extendido la API añadiendo mejoras en funcionalidades y se han optimizado los ajustes dinámicos del Global Manager para una recuperación más rápida. Se han diseñado un conjunto de experimentos con los que se ha evaluado extensamente el componente con todas las optimizaciones, llegando a utilizar hasta 26 nodos (1024 cores), aproximadamente un 10% de los recursos de la máquina en la que se ha evaluado. Finalmente, destacar que la nueva versión se adapta más rápidamente a las variaciones en la carga de trabajo controlando que no se exceda de los límites, según demuestran los experimentos realizados. Currently, energy management has become a fundamental research topic in the HPC field, since supercomputing centers are large consumers of energy, which is a challenge both ecologically and economically. However, energy management is not banal since other factors influence that not only reside in the architecture in which it works. For this reason, the help of a software that is in charge of this management is necessary. This project has been developed within the context of the Energy Aware Runtime (EAR), which is a software whose function is to manage energy in HPC centers. EAR is made up of various components that coordinate with each other, including the Global Manager, which is the core of this project. The Global Manager is in charge of guaranteeing that the energy consumption over a period of time in a system does not exceed an established energy limit, whose functionality is called energy capping. This component can work in two different modes: manual mode and automatic mode. The first will be limited to controlling the energy consumption that is taking place in the system, leaving the system administrator to carry out the actions it deems appropriate to comply with the limits. Automatic mode, in addition to monitoring, is able to adapt the system configuration dynamically. Manual mode is covered and in production. In contrast, for automatic mode, only an initial design is found and lacks an evaluation, so the objective of this project is to allow the Global Manager to operate automatically, seeking to be more flexible. For this, an initial state evaluation has been carried out in which, based on the results, the API has been extended adding improvements in functionalities and the dynamic settings of the Global Manager have been optimized for a faster recovery. A set of experiments has been designed with which the component has been extensively evaluated with all the optimizations, using up to 26 nodes (1024 cores), approximately 10\% of the resources of the machine in which has been evaluated. Finally, it should be noted that the new version adapts more quickly to variations in workload, controlling that the limits are not exceeded, as shown by the experiments carried out.
TitulacióGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)
Col·leccions
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
152032.pdf | 5,935Mb | Visualitza/Obre |