Autores

5559
2221,51,2052
5560
2221,51,2052
5561
2221,51,2052

Informações:

Publicações do PESC

Título
Execução Interativa de Experimentos Científicos Computacionais em Larga Escala
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
18/12/2013
Resumo

Para lidar com a natureza exploratória da ciência e o processo dinâmico envolvido nas análises científicas, os sistemas de gerência de workflows dinâmicos são essenciais. Entretanto, workflows dinâmicos são considerados como um desafio em aberto, devido à complexidade em gerenciar o workflow em contínua adaptação, em tempo de execução, por eventos externos como a intervenção humana. Apoiar iterações dinâmicas é um passo importante na direção dos workflows dinâmicos uma vez que a interação entre o usuário e o workflow é iterativa. Porém, o apoio existente para iterações em workflows científicos é estático e não permite mudanças, em tempo de execução, nos dados do workflow, como critérios de filtros e margens de erro. Nesta tese, propomos uma abordagem algébrica para dar apoio a iterações centradas em dados em workflows dinâmicos. Propomos o conceito de linhagem da iteração de forma que a gerência dos dados de proveniência seja consistente com as interações com o workflow. A linhagem também possibilita que os cientistas interajam com os dados do workflow por meio de dois algoritmos implementados no sistema de workflows Chiron. Avaliamos a nossa abordagem utilizando workflows reais em ambientes de execução em larga escala. Os resultados mostram melhorias no tempo de execução de até 24 dias quando comparado com uma abordagem tradicional não iterativa. Realizamos consultas complexas aos resultados parciais ao longo das iterações do workflow. A nossa abordagem introduz uma sobrecarga de no máximo 3,63% do tempo de execução. O tempo para executar os algoritmos de interação também é menor que 1 milissegundo no pior cenário avaliado.

Abstract

To tackle the exploratory nature of science and the dynamic process involved in scientific analysis, dynamic workflows have been identified as an open challenge as they are subject to continuous adaptation and improvement. In particular, they require the ability of adapting a scientific workflow, at runtime, based on external events such as human interaction. Supporting dynamic iteration is an important step towards dynamic workflows since user interaction with a workflow is iterative. However, current support for iteration in scientific workflows is static and does not allow for runtime changes in data such as filter criteria or error thresholds. In this thesis, we propose an algebraic approach to support data-centric iteration in dynamic workflows and a dynamic execution model for these operators. We introduce the concept of iteration lineage so that provenance data management is consistent with dynamic changes in the workflow. Lineage also enables scientists to interact with workflow data and configuration at runtime through two steering algorithms implemented in Chiron. We evaluate our approach using real large-scale workflows on a large-scale environment. The results show execution time savings up to 24 days when compared to a traditional non-iterative workflow execution. We also perform complex queries for partial result analysis along the iterations and we assess the max overhead introduced by our iterative model as 3.63% of execution time. The performance of our proposed steering algorithms run in less than 1 millisecond in the worst-case scenario we measured.

Topo