Publicações do PESC BioProv: Uma Biblioteca para Dados de Proveniência em Workflows de Genômica Comparativa

Autores

id		url
7050	Vinicius Werneck Salazar	3121,51,3120
7051	Marta Lima de Queirós Mattoso (Orientador)	3121,51,3120
7052	Fabiano Lopes Thompson (Co-orientador)	3121,51,3120

Informações:

Publicações do PESC

3012

Título

BioProv: Uma Biblioteca para Dados de Proveniência em Workflows de Genômica Comparativa

Número de registro

Data da defesa

15/3/2021

tituloi

Resumo

Em análises computacionais, a proveniência de um experimento caracteriza como, quando, por que e por quem um este experimento foi executado. Na bioinformática, a captura e análise de dados de proveniência ainda é um desafio, devido à complexidade dos workflows, heterogeneidade dos dados biológicos e a ausência de bibliotecas especializadas. As soluções existentes não possuem funcionalidades para captura de proveniência em um formato estruturado, e/ou não apoiam as especificidades do domínio da bioinformática. Esta dissertação apresenta BioProv, uma biblioteca de software para extração, representação e análise de dados de proveniência de workflows de bioinformática, com compatibilidade com a recomendação W3C-PROV. A biblioteca é utilizada em um estudo de caso de um workflow de taxonomia genômica. Nesse estudo, foi possível capturar a proveniência, extrair dados específicos de domínio, e armazená-los em disco com um adicional de no máximo 3.56% de tempo de execução. Tais resultados destacam a capacidade de BioProv de extrair, armazenar e consultar dados de proveniência com uma sobrecarga computacional desprezível.

Abstract

In computational analyses, the provenance of an experiment characterizes how, when, why, and by whom the experiment was performed. In bioinformatics, monitoring provenance is still a challenge, due to the complexity of workflows, the heterogeneity of biological data and the absence of specialized libraries. Exist- ing solutions do not possess features for provenance capture in a structured for- mat, and/or do not support the specificities of the bioinformatics’ domain. This dissertation presents BioProv, a software library for the extraction, representation and analysis of provenance data of bioinformatics workflows, with compatibility with the W3C-PROV standard. The library is utilized in a case study of a genomic taxonomy workflow. In this study, it was possible to capture provenance, extract domain data, and store them on disk with a maximum increase of 3.56% in the execution time. Such results highlight the capacity of BioProv of extracting and storing provenance data with negligible computational overhead.

Arquivo

3012.pdf

url

BioProv: Uma Biblioteca para Dados de Proveniência em Workflows de Genômica Comparativa

Autores

Informações:

Publicações do PESC

Menu principal