ProvDoop: Captura, Armazenamento e Disponibilização de Dados de Proveniência em Tempo de Execução de Sistemas sobre Hadoop
Autores
5968 |
2746,51,2747
|
|
5969 |
2746,51,2747
|
|
5970 |
2746,51,2747
|
Informações:
Publicações do PESC
Título
ProvDoop: Captura, Armazenamento e Disponibilização de Dados de Proveniência em Tempo de Execução de Sistemas sobre Hadoop
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
31/3/2016
Resumo
Grande parte dos experimentos científicos em larga escala envolvem execuções de workflows computacionalmente intensivos e de longa duração. É fundamental que existam meios para o cientista acompanhar essas execuções enquanto elas estão em andamento. Ao acompanhar o andamento da execução de um workflow científico, pode-se tomar decisões e avaliar os resultados em tempo real. Isso permite que o cientista detecte erros mais rapidamente, economizando tempo e recursos financeiros, sobretudo considerando um ambiente como o de nuvem, que possui uma política pay-per-use. Nesta dissertação, apresentamos uma solução não intrusiva para execução de workflows científicos em nuvens computacionais utilizando Hadoop. A arquitetura proposta, intitulada ProvDoop, captura, armazena e disponibiliza dados de proveniência em tempo de execução para execuções com Hadoop. Experimentos realizados com o ProvDoop usando um caso de estudo real da área de bioinformática, mostram que a utilização do ProvDoop não causa impactos significativos no tempo total da execução dos workflows científicos frente aos ganhos que a proveniência em tempo real proporciona. Observou-se que variações no ambiente, como latência da rede, podem causar mais impactos no tempo de execução do que a utilização do ProvDoop, que apresentou melhora de até 4% no tempo total de execução para alguns cenários observados. O ProvDoop viabiliza o acesso aos dados de forma que consultas a um repositório de proveniência possam ser realizadas em tempo de execução, permitindo que o cientista acompanhe as execuções de seus experimentos em tempo real.
Abstract
Most of large-scale scientific experiments involve several executions of computationally intensive and long duration scientific workflows. It is vital that there are means for the scientist to monitor those executions while they are still in progress. By monitoring the progress of a scientific workflow execution, it is possible to make decisions and evaluate the results in real time. This allows the scientist to detect errors quicker, saving time and financial resources, especially if we consider an environment like the cloud that has a pay-per-use policy. In this dissertation, we present a non-intrusive solution for scientific workflows executions on computer clouds using Hadoop. The proposed architecture, called ProvDoop, gathers, stores and provides provenance data at run time for executions with Hadoop. Experiments performed with ProvDoop using a real case study from bioinformatics field showed that the use of ProvDoop does not cause a significant impact on the total execution time of scientific workflows, specially considering the gains that real-time provenance provides. It was observed that environment variations, like network latency, can cause more impacts on the execution time than the use of ProvDoop, that showed an improvement up to 4% on the total execution time for some scenarios. ProvDoop provides the access to data in a way that queries can be run on a provenance repository at run time, allowing the scientists to monitor their experiments executions in real time.
Arquivo