Gerencia de Mapeamento Entre Esquemas de Representação de Dados Genéticos
Autores
4680 |
Fátima Cristina Vieira Gonçalves
|
51,2076
|
4681 |
51,2076
|
Informações:
Publicações do PESC
Existem muitos desafios na área de dados em bioinformática, principalmente com relação à grande quantidade de dados que são produzidos em diferentes formatos e modelos. Há basicamente duas abordagens para interagir com estas fontes de dados genéticos heterogêneas. A primeira abordagem é baseada em um mapeamento para um esquema padrão. Esta representação global pode ser usada para mapear todos os dados disponíveis para um esquema único. A segunda abordagem trabalha com vários mapeamentos específicos. Esta última abordagem não força o mapeamento para um esquema padrão permitindo a convivência de diversos esquemas. A integração é feita de acordo com os requisitos específicos da atividade que está sendo tratada no momento.
Nosso trabalho se encaixa dentro dessa segunda abordagem junto a ambientes integrados para trabalhar com as diversas fontes de dados genéticos em seus formatos originais e seus workflows. Nesses ambientes é necessário que o biólogo informe as regras de mapeamento que possibilitam a integração desejada. Na maioria das vezes, o mapeamento dessas informações não é trivial e realmente depende da interação com o biólogo. Nossa proposta é oferecer apoio ao biólogo durante o processo de mapeamento das informações genéticas, ajudando na integração de diferentes fontes de dados elou entradas e saídas de programas. Foi desenvolvida uma ferramenta que pode ser utilizada em conjunto com arquiteturas que disponibilizam aos biólogos um ambiente integrado de armazenamento e análise dos dados genéticos independentemente dos formatos em que estão originalmente disponíveis.
There are many challenges within bioinformatics data, mainly with respect to the vast amount of data being produced in different formats and models. There are basically two approaches to interoperate with these heterogeneous sources of genetic data. The first approach is based on a global schema mapping. This global representation can be used to map all the different available data into a unique schema. The second approach works with several specific schema mappings. This latter approach does not force mappings to one global schema that encompasses all possible schemas. Rather, the integration is made depending on the current activity requirements.
Our work fits this second approach within integrated environments that work with several sources of genetic data in its original format and workflows. With these environrnents it is necessary that the biologist inform the mapping rules that allow the desired integration. Most of the time, the mapping of these informations is not trivial and depends on the interaction of the biologist. Our proposal is to provide support to the biologist during the mapping process of the genetic information, helping on the integration of different sources of data and the programs inputs and outputs. We develop a to01 that can be plugged to architectures that give biologists an integrated environrnent to store and analyze the genetic data independent of their formats, in which they are originally available.