Authors:

Autores

Person role Person
7520
2375,51,3059
7519
2375,51,3059
7518
2375,51,3059

Informations:

Pesc publication

Title
Apoio à Implantação de Workflows Conteinerizados
Research area
Data and Knowledge Engineering
Publication type
Doctoral Thesis
Identification Number
Date
12/18/2024
Resumo

Os desafios associados à implantação de um workflow estão intrinsecamente ligados à condições específicas dos diversos ambientes de execução. Os contêineres mudaram a implantação de aplicações de software. No entanto, os contêineres foram projetados para implantar e executar aplicações de forma autônoma, isolada e independente, enquanto, em workflows, todos os componentes de software do workflow são interconectados e devem ser acomodados em uma composição de contêineres. Definir essa composição de contêineres é um desafio, pois são muitas alternativas para os componentes do workflow. O desempenho associado à escolha da composição varia conforme o ambiente computacional. Outro desafio está ligado à acomodação dos serviços de dados de proveniência dos workflows junto aos dados de proveniência dos contêineres. As soluções existentes ao apoio à implantação de workflows conteinerizados não oferecem ajuda para a definição da composição de contêineres e nem proveem rastros de proveniência que integram dados de contêiner e da execução do workflow. 

Esta tese apresenta um estudo aprofundado de composições de contêineres para workflows, que aliado a diversas análises de desempenho conduzidas em diferentes ambientes de alto desempenho (PAD), resultaram em auxílio efetivo à implantação dos workflows. Foi também desenvolvido um modelo de dados de proveniência para integrar os dados de contêiner e de workflows baseado em padrões de proveniência e de contêineres. Esse modelo é utilizado como base para a solução desenvolvida para coletar dados de proveniência e gerar os rastros com dados da execução integrada. Foram realizados experimentos em ambientes PAD com dois workflows reais, sendo um de Aprendizado de máquina e outro de Bioinformática, e um terceiro, o Montage, que é um benchmark de fato. 

Os resultados evidenciam as vantagens de explorar diferentes composições e que o auxílio dos dados de proveniência é essencial para a qualidade e reprodução de resultados dos workflows conteinerizados.

Abstract

The challenges associated with deploying a workflow are intrinsically linked to the specific conditions of various execution environments. Containers have revolutionized the deployment of software applications. However, containers were designed to deploy and run applications autonomously, in isolation, and independently, while, in workflows, all software components of the workflow are interconnected and must be accommodated in a container composition. Defining this container composition is challenging, as there are numerous alternatives for the workflow components. The performance associated with the choice of composition varies depending on the computational environment. Another challenge is related to accommodating the provenance data services of workflows alongside the provenance data of containers. Existing solutions to support the deployment of containerized workflows neither assist in defining the container composition nor provide provenance traces that integrate container and workflow execution data.  

This thesis presents an in-depth study of container compositions for workflows, which, combined with various performance analyses conducted in different high-performance computing (HPC) environments, resulted in effective support for the deployment of workflows. A provenance data model was also developed to integrate container and workflow data, based on provenance and container standards. This model serves as the foundation for the solution developed to collect provenance data and generate traces with integrated execution data. Experiments were conducted in HPC environments with two real workflows: one focused on machine learning, another on bioinformatics, and a third, Montage, which is a de facto benchmark.  

The results highlight the advantages of exploring different compositions and demonstrate that the support provided by provenance data is essential for the quality and reproducibility of results in containerized workflows.

JSN_TPLFW_GOTO_TOP