Autores

5694
Ricardo Rocha Soares
2523,790
5695
2523,790

Informações:

Publicações do PESC

Título
Estudo Comparativo Entre Sistemas de Bancos de Grafos e Relacionais para a Gerência de Dados de Proveniência em Workflows Científicos
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
27/9/2013
Resumo

Avanços científicos estão cada vez mais sendo alcançados através de conjuntos complexos de cálculos e análises de dados, que podem compreender milhares de atividades encadeadas e representadas por meio de workflows científicos. Um workflow pode ser executado inúmeras vezes, sendo que os dados de proveniência destas execuções são uma fonte de informação cada vez mais relevante, além de um componente crucial para os Sistemas Gerência de Workflows Científicos (SGWfC). Vários sistemas que lidam com dados de proveniência os armazenam em Bancos de Dados Relacionais (BDR). No entanto, estes dados são naturalmente modelados como grafos direcionados acíclicos, o que faz parecer que a utilização de Bancos de Dados de Grafos (BDG) para sua gerência seria mais adequada. Esta dissertação tem como objetivo investigar, considerando diferentes cenários, qual das alternativas para gerência de dados de proveniência é a melhor, avaliando principalmente o desempenho de execuções de consultas típicas de proveniência. Além de comparar o desempenho, realizou-se uma análise em termos de uso de processador e memória, bem como do espaço ocupado em disco por cada base experimental. Nenhuma solução foi superior em todos os aspectos testados, porém, em termos gerais, o BDG superou o BDR.

Abstract

Scientific advances are increasingly being achieved through sets of complex calculations and data analysis, which may include thousands of linked activities represented by scientific workflows. A workflow can be executed numerous times, and provenance data coming from these runs are an increasingly important source of information for the analysis and reproduction of such executions. Many systems that deal with provenance data store them in Relational Databases (RDB). However, these data are naturally modeled as directed acyclic graphs, which makes it seem that the use of Graph Databases (GDB) to its management would be more appropriate. This dissertation aims to investigate, considering different scenarios, which of the alternatives for provenance data management is the best by evaluating the performance of typical provenance query executions. In addition to performance evaluation, an analysis was carried out in terms of processor and memory consumption, and disk space needed for storing each experimental database. No solution was superior in all aspects but, in general, GDB performed better than RDB.

Topo