Informações:

Publicações do PESC

Título
PROVDEPLOY: Apoio à Coleta de Dados de Proveniência em Scripts de Execução de Códigos Científicos
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
1/4/2020
Resumo

Aplicações científicas em larga escala se caracterizam por invocar diversas bibliotecas de software e produzir grandes quantidades de dados por meio de scripts. Comumente esses scripts envolvem processamento de alto desempenho (PAD) na execução de seus códigos científicos. A complexidade de preparação desses scripts para execução é alta, pois utilizam muitos componentes externos, que geram uma grande pilha de software. Indo ao encontro das dificuldades de configuração e execução, a virtualização baseada em contêineres vem facilitando o empacotamento de pilhas de software em scripts. No entanto, o uso de contêineres em ambientes PAD apresenta desafios com a segurança do ambiente e a sobrecarga na execução da aplicação. Um outro complicador que aumenta a pilha de software na execução de scripts são os serviços de coleta de dados de proveniência. Dados de proveniência proporcionam poder analítico e de monitoramento. Para facilitar a adoção de serviço de proveniência em ambientes PAD, esta dissertação apresenta a ProvDeploy. O objetivo da ProvDeploy é direcionar a composição da virtualização da aplicação, para execução em PAD com contêineres, incorporando serviços de coleta de dados de proveniência de modo sistemático e com poucos passos de configuração. Os experimentos realizados com a ProvDeploy para execução de diversos scripts de códigos científicos evidenciaram a redução do esforço necessário. A adoção de serviços de coleta de proveniência em ambientes PAD foi facilitada e não houve sobrecarga no desempenho das aplicações executadas em contêineres com a ProvDeploy.

Abstract

Large-scale scientific applications are characterized by using many software libraries and producing large amounts of data through scripts. Usually, those scripts require High Performance Computing (HPC) on scientific code execution. The complexity to prepare those scripts for execution is high due to the  amount of third-party software, that compose the software stack. Container-based virtualization helps on configuration and execution of script applications. However, the use of containers in HPC environments faces challenges of environment security and overhead on the application execution. Another complicating component that increases the software stack size are the provenance data capture services. The capture of provenance data provides analytical and monitoring capabilities. To ease the adoption of provenance data capture services in scripts using HPC environments, this dissertation presents ProvDeploy. The main goal of ProvDeploy is to guide the composition of the script's virtualization, for execution in HPC with containers, integrating the provenance data capture services in a systematic way and with a few configuration steps. The experiments performed with ProvDeploy over diverse scripts of scientific code showed the reduction of the necessary effort. The adoption of provenance data capture services in HPC environments has been facilitated and there was no overhead on the performance of applications executed in containers with ProvDeploy.

Arquivo
Topo