Authors:

Autores

Person role Person
6455
2747,51,2921
6454
2747,51,2921
6453
2747,51,2921

Informations:

Pesc publication

Title
Variações no Desenho de Workflows Científicos Visando ao Aumento de Desempenho em Execuções em Larga Escala
Research area
Data and Knowledge Engineering
Publication type
Master's thesis
Identification Number
Date
7/13/2017
Resumo

Experimentos científicos em larga escala são considerados complexos devido à própria modelagem na definição do workflow ou por envolver a manipulação de dados científicos volumosos e heterogêneos. A execução de workflows científicos em ambientes paralelos e distribuídos é requerida, mas também é preciso registrar a proveniência desses experimentos. Os dados de proveniência, quando acrescidos de dados de desempenho da execução do workflow permitem uma noção sobre os custos computacionais tanto do workflow total como das suas atividades e dos programas atrelados a elas. Dessa maneira podem ser avaliadas melhoras potenciais no desempenho do workflow e comparar alternativas de desenho, caso o workflow apresente variações que levem à diminuição no tempo e custo computacional da execução. Esta dissertação tira proveito do desenho de workflows por meio de linhas de experimentos para recomendar variabilidades de desenhos que visam melhorias no desempenho. A abordagem utilizada foi baseada em técnicas de otimização de consultas junto com informações retiradas da base de dados de proveniência por meio do uso de sistemas de gerência de workflows científicos. Técnicas como fragmentação de dados a serem consumidos e implementação de filtros com o fim de reduzir os dados antes do processamento são propostas como variabilidades na linha de experimento. Com esta representação fazendo parte da linha de experimentos é possível recomendar ao cientista derivações que possam levar a uma redução no tempo de execução do workflow.

Abstract

Large-scale scientific experiments are considered complex due to the workflow design during the specification and because it involves the manipulation of massive and heterogeneous scientific data. The execution of scientific workflows in parallel and distributed environments is required, but it is also necessary to manage the provenance data of these experiments. The provenance data, when enhanced with performance data of the workflow execution, allows a notion about the computational costs of both the workflow as a whole and its activities or programs related. In this way, potential improvements in the workflow performance can be evaluated and design alternatives can be compared, in cases when the workflow presents variations that lead to a decrease in execution time or computational cost. This dissertation takes advantage of the design of workflows through experiment lines to recommend variabilities in the designs, aiming to improve performance. The approach was based on query optimization techniques with provenance data information extracted from databases through scientific workflow management systems. Techniques such as data fragmentation and the filter are proposed as variabilities in the experiment line. With this representation as part of the experiment line, it is possible to recommend to scientists several derivations that lead to a reduction of the workflow execution time.

JSN_TPLFW_GOTO_TOP