Um Serviço de Custo para a Execução Paralela de Workflows Científicos em Nuvens de Computadores
Autores
5319 |
Vitor de Gamboa Viana
|
2404,51
|
5320 |
2404,51
|
Informações:
Publicações do PESC
O conceito de computação em nuvem vem se firmando como um novo modelo de computação que proporciona aos cientistas uma oportunidade de se utilizar diversos recursos distribuídos para a execução de experimentos científicos. Muitos dos experimentos científicos existentes, modelados como workflows científicos, devem controlar a execução de atividades que consomem e produzem grandes volumes de dados. Há uma demanda por paralelismo e ambientes de alto desempenho na execução destes experimentos, uma vez que muitas destas atividades são computacionalmente intensivas. Entretanto, paralelizar um workflow científico em um ambiente de nuvem não é uma tarefa trivial. Uma das tarefas mais complexas é definir a melhor configuração possível do ambiente de nuvem, i.e., o número ideal de máquinas virtuais a serem utilizadas e como projetar a estratégia de execução paralela. Devido ao grande número de opções para configurar o ambiente de nuvem, esta tarefa de configuração se torna inviável de ser executada manualmente e, caso não seja realizada da melhor forma possível, pode produzir impactos negativos de desempenho, ou aumento excessivo no custo financeiro da execução. Este trabalho propõe o SciCumulus-ECM (SciCumulus Environment Cost Model), um serviço baseado em um modelo de custo, que determina a melhor configuração possível para o ambiente de acordo com restrições impostas pelos cientistas, através de um otimizador baseado em algoritmo genético.
The concept of cloud computing has established itself as a new computing model that provides scientists an opportunity to use multiple distributed resources to perform scientific experiments. Many of the existing scientific experiments, modeled as scientific workflows, shall monitor the implementation of activities that consume and produce large volumes of data. There is a demand for parallelism and high performance environments in carrying out these experiments since many of these activities are computationally intensive. However, parallelizing a scientific workflow in a cloud environment is not a trivial task. One of the hardest tasks is to define the best possible configuration of the cloud environment, i.e., the optimal number of virtual machines to be used and how to design a strategy for parallel execution. Due to the large number of options to configure the cloud environment, this configuration task becomes impossible to be performed manually, and if not done in the best possible way, can produce negative impacts on performance, or excessive increase in the financial cost of running. This paper proposes the SciCumulus-ECM (SciCumulus Environment Cost Model), a service based on a cost model to determine the best possible configuration for the environment in accordance with restrictions imposed by the scientists, using a genetic algorithm-based optimizer.