Informações:

Publicações do PESC

Título
Uma Abordagem de Apoio à Execução Paralela de Workflows Científicos em Nuvens de Computadores
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
15/6/2012
Resumo

Grande parte dos experimentos em larga escala existentes modelados como workflows científicos são computacionalmente intensivos e necessitam de muitos recursos de computação (comumente distribuídos) que são utilizados para executar milhares de tarefas em ambientes de processamento de alto desempenho (PAD), tais como clusters e grades. Nos últimos anos, as nuvens de computadores começaram a oferecer um ambiente de PAD promissor com recursos elásticos que podem ser instanciados, sob demanda, sem a necessidade dos cientistas adquirirem infraestrutura própria. No entanto, a utilização de nuvens para executar workflows que demandam PAD apresenta desafios em aberto. Como os próprios cientistas executam os workflows, é difícil decidir a priori a quantidade de recursos e por quanto tempo os mesmos serão necessários. Nesse cenário há uma necessidade de adaptação frente à flutuação do meio. Além disso, os cientistas têm de gerenciar outras questões, como a captura de proveniência distribuída de forma a garantir a validade e reprodutibilidade do workflow.  Esta tese apresenta uma abordagem para gerência da execução paralela de workflows científicos em ambientes de nuvem de forma adaptativa chamada SciCumulus. O SciCumulus verifica a capacidade computacional disponível, ajusta dinamicamente a distribuição das tarefas e dimensiona o ambiente de nuvem para alcançar um melhor desempenho. Os experimentos mostraram os benefícios da abordagem adaptativa do SciCumulus que apresentou um aumento de desempenho de até 37,9% frente a abordagens tradicionais de paralelismo em nuvens, com a vantagem de oferecer um serviço de captura de proveniência em tempo real.

Abstract

Most of the existing large-scale scientific experiments modeled as scientific workflows are computing intensive and require a huge amount of computing resources (typically distributed) to execute thousands of tasks in High Performance Computing (HPC) environments, such as clusters or grids. In recent years, cloud computing environments start posing as a promising HPC environment by providing elastic features that can be instantiated on demand, without the need for scientists to acquire its own infrastructure. However, the effective use of clouds to execute workflows that demand HPC presents many open, yet important, challenges. As scientists execute scientific workflows that require HPC, it is difficult to decide the amount of resources and how long they will be required beforehand, since the allocation of these resources is elastic. In addition, scientists have to deal with how to capture distributed provenance information and fluctuations in the distributed environment resources. This thesis presents SciCumulus, which is an approach to adaptively manage the parallel execution of scientific workflows in clouds. The SciCumulus verifies the available computing power, dynamically adjusts the allocation of tasks and scales the cloud environment to achieve a better performance, without compromising distributed provenance gathering. The experiments presented in this thesis showed the benefits of the adaptive approach of SciCumulus that evidenced a performance increase of up to 37.9% compared to traditional approaches that provide parallelism in the clouds with the advantage of offering a service for provenance capture at runtime.

Topo