Migração do Chiron para Ambiente de Processamento Paralelo com Memória Distribuída
Autores
5710 |
João Luiz Reis Ferreira
|
2625,790
|
5711 |
2625,790
|
Informações:
Publicações do PESC
Experimentos científicos que manipulam dados em larga escala costumam ser representados como workflows científicos, de modo a facilitar o encadeamento de programas que desempenham funções específicas no processamento desses dados. Sistemas Gerenciadores de Workflows Científicos (SGWfC) apoiam a configuração, execução e monitoramento de workflows científicos. Para analisar grandes conjuntos de dados, é importante que o SGWfC ofereça suporte à execução paralela em ambientes de processamento de alto desempenho (PAD). Dentre os sistemas com essa característica, o Chiron se tornou o objeto de pesquisa desta dissertação, graças à sua coleta de proveniência e à sua álgebra, que viabiliza otimizações no plano de execução dos workflows. Outro aspecto do Chiron é a necessidade de disco compartilhado para seu pleno funcionamento. Para aproveitar a escalabilidade oferecida por ambientes de memória distribuída e ampliar o total de plataformas onde o Chiron pode ser utilizado, esta dissertação apresenta o processo de criação do ChironSN, uma versão modificada do Chiron apta a operar em tais ambientes. A fim de validar o protótipo, programas científicos de Map/Reduce, muito comuns em ambientes de memória distribuída, foram modelados como workflows e executados com o ChironSN.
Scientific experiments that handle large-scale datasets are typically represented as scientific workflows, which eases the chaining of programs that perform specific tasks to process the dataset. Scientific Workflow Management Systems (SWfMS) helps to configure, execute and monitor scientific workflows. Massive dataset analysis demands SWfMS to support parallel execution on High Performance Computing (HPC) environments. Among the systems with this feature, Chiron became the research object of this dissertation, thanks to its provenance gathering capabilities and its workflow algebra, which allows for optimizations on scientific workflows’ execution plans. Another aspect of Chiron is the need for shared disk to its full operation. To take advantage of the scalability offered by shared-nothing environments and expand the amount of platforms where Chiron can be used, this dissertation presents the creation process of ChironSN, a modified version of Chiron which is able to work in such environments. In order to validate the prototype, Map/Reduce scientific programs, very popular in shared-nothing environments, were modeled as workflows and executed by ChironSN.