Publicações do PESC Mecanismo de Tolerância a Falhas Transientes para Aplicações Bag-Of-Tasks em Ambientes de Alto Desempenho

Autores

id		url
7537	Rodrigo Coacci	3257,1848,135
7538	Diego Leonel Cadette Dutra (Orientador)	3257,1848,135
7539	Claudio Luis de Amorim (Co-orientador)	3257,1848,135

Informações:

Publicações do PESC

3197

Título

Mecanismo de Tolerância a Falhas Transientes para Aplicações Bag-Of-Tasks em Ambientes de Alto Desempenho

Número de registro

Data da defesa

12/2/2025

tituloi

Resumo

As falhas aumentaram significativamente nos sistemas de computação de alto desempenho recentes, tornando a tolerância a falhas crucial para a eficiência e confiabilidade das aplicações. Falhas transitórias podem gerar atrasos consideráveis na execução das tarefas, comprometendo a eficiência do sistema. Soluções tradicionais podem ser ineficazes no tratamento de falhas frequentes, gerando uma sobrecarga significativa.

Este trabalho propõe e avalia a replicação parcial de tarefas com especulação em um /framework/ genérico de mestre-trabalhador para mitigar os efeitos de falhas transitórias em ambientes de computação de alto desempenho (HPC). A proposta combina replicação parcial de tarefas com especulação para explorar o paralelismo inerente e reduzir o tempo ocioso em caso de falhas. A solução é implementada em um /framework/ genérico e avaliada em dois programas paralelos, um real e outro sintético, em um ambiente HPC.

Os resultados dos experimentos mostram que a especulação de tarefas pode reduzir significativamente a variância dos tempos de execução das tarefas na presença de falhas transitórias, diminuindo o tempo total de execução em até 4 vezes e aumentando a previsibilidade do tempo de execução.

Abstract

The failures have increased significantly in recent high-performance computing systems, making fault tolerance crucial for application efficiency and reliability. Transient faults can generate considerable delays in task execution, compromising system efficiency. Traditional solutions may be inefficient in dealing with frequent failures, generating significant overhead.

This work proposes and evaluates partial task replication with speculation in a generic master-worker framework to mitigate the effects of transient failures in high-performance computing (HPC) environments.

The proposal combines partial task replication with speculation to exploit inherent parallelism and reduce idle time in case of failures. The solution is implemented in a generic framework and evaluated on two parallel programs, one real and one synthetic, in an HPC environment. The results of the experiments show that task speculation can significantly reduce the variance of task execution times in the presence of transient failures, decreasing the total execution time by up to 4 times and increasing the predictability of the execution time.

Arquivo

3197.pdf

url

Mecanismo de Tolerância a Falhas Transientes para Aplicações Bag-Of-Tasks em Ambientes de Alto Desempenho

Autores

Informações:

Publicações do PESC

Menu principal