DSpace DSpace UPC
 Català   Castellano   English  

E-prints UPC >
Altres >
Enviament des de DRAC >

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/2117/7460

Arxiu Descripció MidaFormat
Goiri.pdf368.64 kBAdobe PDFThumbnail
Veure/Obrir

Citació: Goiri, I. [et al.]. Checkpoint-based Fault-tolerant Infrastructure for Virtualized Service Providers. A: 2010 IEEE/IFIP Network Operations and Management Symposium. "2010 IEEE/IFIP Network Operations and Management Symposium". Osaka: IEEE Computer Society Publications, 2010, p. 455-462.
Títol: Checkpoint-based Fault-tolerant Infrastructure for Virtualized Service Providers
Autor: Goiri Presa, Íñigo Veure Producció científica UPC; Julià, Ferran; Guitart Fernández, Jordi Veure Producció científica UPC; Torres Viñals, Jordi Veure Producció científica UPC
Editorial: IEEE Computer Society Publications
Data: 23-abr-2010
Tipus de document: Conference report
Resum: Crash and omission failures are common in service providers: a disk can break down or a link can fail anytime. In addition, the probability of a node failure increases with the number of nodes. Apart from reducing the provider’s computation power and jeopardizing the fulfillment of his contracts, this can also lead to computation time wasting when the crash occurs before finishing the task execution. In order to avoid this problem, efficient checkpoint infrastructures are required, especially in virtualized environments where these infrastructures must deal with huge virtual machine images. This paper proposes a smart checkpoint infrastructure for virtualized service providers. It uses Another Union File System to differentiate read-only from read-write parts in the virtual machine image. In this way, read-only parts can be checkpointed only once, while the rest of checkpoints must only save the modifications in read-write parts, thus reducing the time needed to make a checkpoint. The checkpoints are stored in a Hadoop Distributed File System. This allows resuming a task execution faster after a node crash and increasing the fault tolerance of the system, since checkpoints are distributed and replicated in all the nodes of the provider. This paper presents a running implementation of this infrastructure and its evaluation, demonstrating that it is an effective way to make faster checkpoints with low interference on task execution and efficient task recovery after a node failure.
ISBN: 978-1-4244-5367-2
URI: http://hdl.handle.net/2117/7460
Apareix a les col·leccions:CAP - Grup de Computació d´Altes Prestacions. Ponències/Comunicacions de congressos
Departament d'Arquitectura de Computadors. Ponències/Comunicacions de congressos
Altres. Enviament des de DRAC
Comparteix:


Stats Mostra les estadístiques d'aquest ítem

SFX Query

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets.

Per a qualsevol ús que se'n vulgui fer no previst a la llei, dirigiu-vos a: sepi.bupc@upc.edu

 

Valid XHTML 1.0! Programari DSpace Copyright © 2002-2004 MIT and Hewlett-Packard Comentaris
Universitat Politècnica de Catalunya. Servei de Biblioteques, Publicacions i Arxius