Autores

7050
3121,51,3120
7051
3121,51,3120
7052
3121,51,3120

Informações:

Publicações do PESC

Título
BioProv: Uma Biblioteca para Dados de Proveniência em Workflows de Genômica Comparativa
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
15/3/2021
Resumo

Em análises computacionais, a proveniência de um experimento caracteriza como, quando, por que e por quem um este experimento foi executado. Na bioinformática, a captura e análise de dados de proveniência ainda é um desafio, devido à complexidade dos workflows, heterogeneidade dos dados biológicos e a ausência de bibliotecas especializadas. As soluções existentes não possuem funcionalidades para captura de proveniência em um formato estruturado, e/ou não apoiam as especificidades do domínio da bioinformática. Esta dissertação apresenta BioProv, uma biblioteca de software para extração, representação e análise de dados de proveniência de workflows de bioinformática, com compatibilidade com a recomendação W3C-PROV. A biblioteca é utilizada em um estudo de caso de um workflow de taxonomia genômica. Nesse estudo, foi possível capturar a proveniência, extrair dados específicos de domínio, e armazená-los em disco com um adicional de no máximo 3.56% de tempo de execução. Tais resultados destacam a capacidade de BioProv de extrair, armazenar e consultar dados de proveniência com uma sobrecarga computacional desprezível.

 

Abstract

In computational analyses, the provenance of an experiment characterizes how, when, why, and by whom the experiment was performed. In bioinformatics, monitoring provenance is still a challenge, due to the complexity of workflows, the heterogeneity of biological data and the absence of specialized libraries. Exist- ing solutions do not possess features for provenance capture in a structured for- mat, and/or do not support the specificities of the bioinformatics’ domain. This dissertation presents BioProv, a software library for the extraction, representation and analysis of provenance data of bioinformatics workflows, with compatibility with the W3C-PROV standard. The library is utilized in a case study of a genomic taxonomy workflow. In this study, it was possible to capture provenance, extract domain data, and store them on disk with a maximum increase of 3.56% in the execution time. Such results highlight the capacity of BioProv of extracting and storing provenance data with negligible computational overhead.

 

Arquivo
Topo