Gerência da Execução de Workflows Científicos de Bioinformática em Ambientes Distribuídos
Autores
6108 |
51,2792,2793
|
|
6109 |
51,2792,2793
|
|
6110 |
51,2792,2793
|
Informações:
Publicações do PESC
Pesquisadores de bioinformática vêm utilizando sistemas de gerência de workflows científicos (SGWfC) para ajudar na realização de experimentos envolvendo simulações de dinâmica molecular. Estas simulações demandam grande poder computacional e se beneficiam de clusters de PC e grades computacionais. A gerência de workflows científicos envolvendo execução de programas em ambientes distribuídos é considerada uma tarefa complexa. Para continuar o controle da execução nos ambientes distribuídos e capturar os dados de proveniência é preciso adotar diferentes mecanismos, que aumentam ainda mais a complexidade dessa gerência. Esta dissertação propõe uma arquitetura para auxiliar os SGWfC na gerência da execução de workflows científicos em ambientes distribuídos, tendo como funcionalidades a definição e o controle da execução remota dos workflows em clusters de PC, além de capturar os dados de proveniência relevantes ao experimento e armazená-los em um repositório de dados. Esta arquitetura visa diminuir a complexidade da execução paralela de programas definidos ao longo de workflows. Foi desenvolvido também um portal web, GrornDExp, com o objetivo de oferecer os serviços desenvolvidos na arquitetura de forma transparente ao usuário. Para validar a arquitetura proposta foi definido um workflo para realização de um experimento real de simulação de dinâmica molecular, denominado GromDFlow. O GromDHow foi modelado no SGWfC Kepler e a dinâmica molecular foi executada de modo remoto no cluster de PC do IBCCF/UFRT. O experimento evidenciou as vantagens da solução apresentada que está disponível e vem sendo usada para diversas simulações.
Bioinfomatics researchers have been using scientific workflow mnagement systems (SWfMS) to help their molecular dynamics simulation experiments. These simulations are computationally intensive demanding clusters of PC and computational grid environments. Managing scientific workflows with parallel program execution in distributed environments is a complex task. Keeping track of the remote parallel execution and captming provenance data among distributed resources is even more complex. This dissertation proposa an architecture to help executing scientific workfiows in distributed environments. It provida for definition and remote execution control of workflows involving parallel execution on PC clusters and grids. In addition, it captures and stores provenance data of the worlíflow execution in a repository. The goal of this architecture is to lower the complexity of parallel execution of some programs of the workflow. GrornDExp, a web portal, has also been developed aiming to provide architectural savices to end users in a transparent manner. To validate the proposed architecture, a workflow has been defined for the execution of a real molecular dynamics simulation experirnent, called GromDFlow, modelled on the Kepler SWfMS. The simulation has been executed remotely on the PC cluster of IBCCFNFRJ. The experiment highlighted the advantages of the proposed architecture, which is now available and is being used for severa1 simulations.