Mecanismo de Tolerância a Falhas Transientes para Aplicações Bag-Of-Tasks em Ambientes de Alto Desempenho
Autores
7537 |
3257,1848,135
|
|
7538 |
3257,1848,135
|
|
7539 |
3257,1848,135
|
Informações:
Publicações do PESC
As falhas aumentaram significativamente nos sistemas de computação de alto desempenho recentes, tornando a tolerância a falhas crucial para a eficiência e confiabilidade das aplicações. Falhas transitórias podem gerar atrasos consideráveis na execução das tarefas, comprometendo a eficiência do sistema. Soluções tradicionais podem ser ineficazes no tratamento de falhas frequentes, gerando uma sobrecarga significativa.
Este trabalho propõe e avalia a replicação parcial de tarefas com especulação em um /framework/ genérico de mestre-trabalhador para mitigar os efeitos de falhas transitórias em ambientes de computação de alto desempenho (HPC). A proposta combina replicação parcial de tarefas com especulação para explorar o paralelismo inerente e reduzir o tempo ocioso em caso de falhas. A solução é implementada em um /framework/ genérico e avaliada em dois programas paralelos, um real e outro sintético, em um ambiente HPC.
Os resultados dos experimentos mostram que a especulação de tarefas pode reduzir significativamente a variância dos tempos de execução das tarefas na presença de falhas transitórias, diminuindo o tempo total de execução em até 4 vezes e aumentando a previsibilidade do tempo de execução.
The failures have increased significantly in recent high-performance computing systems, making fault tolerance crucial for application efficiency and reliability. Transient faults can generate considerable delays in task execution, compromising system efficiency. Traditional solutions may be inefficient in dealing with frequent failures, generating significant overhead.
This work proposes and evaluates partial task replication with speculation in a generic master-worker framework to mitigate the effects of transient failures in high-performance computing (HPC) environments.
The proposal combines partial task replication with speculation to exploit inherent parallelism and reduce idle time in case of failures. The solution is implemented in a generic framework and evaluated on two parallel programs, one real and one synthetic, in an HPC environment. The results of the experiments show that task speculation can significantly reduce the variance of task execution times in the presence of transient failures, decreasing the total execution time by up to 4 times and increasing the predictability of the execution time.