Informações:

Publicações do PESC

Título
Reprodução de Experimentos Computacionais na Infraestrutura de Computação em Nuvem
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
25/9/2015
Resumo

Workflows científicos são utilizados para modelar experimentos computacionais. Os resultados desses experimentos são publicados e compartilhados na forma de artigos apresentados nos veículos científicos. Entretanto, para que tais resultados sejam cientificamente válidos eles devem ser passíveis de reprodução. Pesquisadores têm a necessidade de compartilhar os artefatos utilizados para a geração dos resultados, dentre eles, os dados de entrada do workflow e os parâmetros utilizados no experimento. Entretanto, reproduzir um experimento baseado nestes artefatos não é uma tarefa trivial. Apesar de o workflow especificar o protocolo de execução com os artefatos disponíveis, nem sempre o ambiente de execução da reprodução pode ser compatível. Programas e bibliotecas que foram originalmente utilizados podem estar obsoletos e incompativeis. Esse cenário se torna ainda mais complexo quando tratamos de reproduções de longo prazo, como por exemplo, diversos anos após a execução que levou aos resultados publicados. Diante disto, esta tese propõe o desenvolvimento da abordagem ReproeScience para tratar a reprodução de experimentos modelados com workflows. São usadas as tecnologia de máquinas virtuais e computação em nuvem para auxiliar na reprodução do ambiente onde o experimento foi originalmente executado. O objetivo é preparar o ambiente de execução de forma que ele possa ser instanciado sob demanda e reproduzido em condições equivalentes na nuvem. Para mostrar a efetividade da abordagem foram executados dois estudos de caso com workflows da astronomia e bioinformática. Os resultados dos experimentos de ambos estudos de casos confirmaram a sua reprodução, e ainda mostraram algumas peculiaridades a serem tratadas para a concepção de mecanismos reprodução, bem como para a verificação e validação dos resultados.

Abstract

Scientific workflows are used to model computational experiments. The results of these experiments are published and shared in the form of articles presented at scienti c vehicles. However, for these results to be scienti cally valid, they must be reproducible. Researchers have the need to share the artifacts used for results generation, for example workflow input data and parameters used in the experiment. However, to reproduce an experiment based on these artifacts is not a trivial task. Although the workflow specifies the execution protocol with the available artifacts, the reproduction execution environment may not always be compatible. Programs and libraries that were originally used may be obsolete and incompatible. This situation becomes even more complex when dealing with long-term reproduction, for example, several years after the execution that led to the published results. Then, this thesis proposes the development of ReproeScience approach to deal with reproduction of experiments modeled with workflows. Virtual machines technology and cloud computing are used to assist in the reproduction of the environment where the experiment was originally performed. The goal is to prepare the execution environment so that it can be instantiated on demand and reproduced under equivalent conditions in the cloud. To show the e fectiveness of the approach two case were performed studies with astronomy and bioinformatics workflows. The experiments results of both studies con rmed the case studies reproduction and also showed some peculiarities that will be treated for the design of reproduction mechanisms and results validation and veri cation.  

Arquivo
Topo