BioProv: Uma Biblioteca para Dados de Proveniência em Workflows de Genômica Comparativa
Autores
7050 |
3121,51,3120
|
|
7051 |
3121,51,3120
|
|
7052 |
3121,51,3120
|
Informações:
Publicações do PESC
Em análises computacionais, a proveniência de um experimento caracteriza como, quando, por que e por quem um este experimento foi executado. Na bioinformática, a captura e análise de dados de proveniência ainda é um desafio, devido à complexidade dos workflows, heterogeneidade dos dados biológicos e a ausência de bibliotecas especializadas. As soluções existentes não possuem funcionalidades para captura de proveniência em um formato estruturado, e/ou não apoiam as especificidades do domínio da bioinformática. Esta dissertação apresenta BioProv, uma biblioteca de software para extração, representação e análise de dados de proveniência de workflows de bioinformática, com compatibilidade com a recomendação W3C-PROV. A biblioteca é utilizada em um estudo de caso de um workflow de taxonomia genômica. Nesse estudo, foi possível capturar a proveniência, extrair dados específicos de domínio, e armazená-los em disco com um adicional de no máximo 3.56% de tempo de execução. Tais resultados destacam a capacidade de BioProv de extrair, armazenar e consultar dados de proveniência com uma sobrecarga computacional desprezível.
In computational analyses, the provenance of an experiment characterizes how, when, why, and by whom the experiment was performed. In bioinformatics, monitoring provenance is still a challenge, due to the complexity of workflows, the heterogeneity of biological data and the absence of specialized libraries. Exist- ing solutions do not possess features for provenance capture in a structured for- mat, and/or do not support the specificities of the bioinformatics’ domain. This dissertation presents BioProv, a software library for the extraction, representation and analysis of provenance data of bioinformatics workflows, with compatibility with the W3C-PROV standard. The library is utilized in a case study of a genomic taxonomy workflow. In this study, it was possible to capture provenance, extract domain data, and store them on disk with a maximum increase of 3.56% in the execution time. Such results highlight the capacity of BioProv of extracting and storing provenance data with negligible computational overhead.