Autores

5892
2719,51,2720
5893
2719,51,2720
5894
2719,51,2720

Informações:

Publicações do PESC

Título
Design and Implementation of a Large-Scale Scientific Gateway System Using Provenance
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
11/8/2015
Resumo
Computação científica em larga escala geralmente se baseia em tarefas intensivas em processamento encadeadas através de um workflow executado em um ambiente de alto desempenho (PAD). Neste contexto, cientistas modelam seus workflows para posteriormente submetê-los à execução em PAD fazendo uso de Sistemas de Gerenciamento de Workflows Científicos (SGWfC), que costumam melhorar o gerenciamento dos dados do experimento. Infelizmente, quando SGWfCs executam o experimento como caixas-pretas, cientistas costumam achar meios de rastrear a execução, e.g. seguindo a evolução dos cálculos, abrindo e navegando em arquivos comumente espalhados em uma arquitetura distribuída. Para localizar determinada convergência, e.g. cientistas tentam exportar dados parciais do PAD, na tentativa de visualizar a evolução do experimento. No entanto, tal processo pode ser complexo e sensível a erros, principalmente porque o usuário deve "adivinhar" o contexto da geração dos resultados uma vez que dados e metadados não estão conectados. Neste trabalho, propõe-se um portal científico que permite ao usuario gerenciar a execução de workflows em larga-escala com base em consultas em tempo de execução à sua proveniência. Proteus oferece uma arquitetura adequada ao suporte e integração de novas aplicações que visem usufruir do acesso desacoplado à proveniência de dados e ambientes de execução. Para avaliar a arquitetura proposta, implementamos e acoplamos ao Proteus um primeiro módulo dedicado à visualização. Este módulo se integra ao portal promovendo a visualização com base na proveniência. Desta forma, Proteus é avaliado enquanto provê suporte à inclusão de novas aplicações, e também enquanto fornece análise visual de resultados parciais de um experimento de Quantificação de Incerteza enriquecido pela proveniência.
Abstract
Large-scale scienti c computing often relies on intensive CPU tasks chained through a workflow running on a high-performance environment (HPC). In this context, scientists model their workflows for later submission on dedicated HPC making use of Scienti c Workflow Management Systems (SWfMS), which may improve data management on scienti c workflows. Unfortunately, when SWfMSs execute experiments as black-boxes, scientists typically nd ways of tracking the execution, i.e following the evolution of computations by opening and browsing les commonly spread over a distributed architecture. To track the convergence of a given experiment, scientists even try to stage out some data to visualize the workflow execution. However, such process is complex and error prone, mainly because the user has to \guess" the context of this partial result generation once les and their metadata are not connected. So that, this scenario hides potential issues given the interface between scientists; workflows models; experiment data; and the execution environment. In this work, we propose a scienti c portal, which allows users to manage the execution of large-scale scienti c workflows based on runtime provenance queries. Proteus provides a suitable architecture that supports and integrates with new applications aimed to take advantage of unbound access to experiment's provenance and execution environment. In order to evaluate the proposed architecture, we implemented and integrated a rst Proteus' aplication, dedicated to enhance experiment's visualization. This application integrates with Proteus promoting provenance visualization based on provenance queries. Therefore, Proteus is evaluated while providing support to port new applications, as well as providing partial visual analysis of a Uncertainty Quanti cation experiment enriched by provenance.
Arquivo
Topo