Autores

6473
2221,51,2927
6474
2221,51,2927
6475
2221,51,2927

Informações:

Publicações do PESC

Título
Scientific Workflows with Support of Knowledge Bases
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
2/8/2017
Resumo

Como ancorar os dados no conhecimento de domínio é um desafio frequente em experimentos de larga escala. Por um lado, a responsabilidade é inerente ao papel dos especialistas de domínio. Por outro, a larga escala de fatos de domínio, aliada à crescente complexidade, tornam esse papel trabalhoso, suscetível a erros e certas vezes inviável. Existem, entretanto, ferramentas computacionais que poderiam ajudar a lidar com essas dificuldades, melhorando as condições para pesquisas científicas baseadas em dados.

Nós estudamos esse desafio e as ferramentas existentes para propor uma abordagem que permita ancorar dados experimentais nas fases de composição, execução e análise do ciclo de vida de experimentos científicos. Para tal, projetamos dois experimentos: o primeiro cobrindo a fase de análise e o segundo cobrindo a fase de composição. No primeiro experimento, recorremos ao estado-da-arte para construção de bases de conhecimento a fim de organizar um conhecimento de domínio que se encontra espalhado por fontes de dados heterogêneas. No segundo, aproveitamos o estado-da-arte em computação interativa a fim de absorver o conhecimento de bases já estabelecidas, disponíveis pela Internet. Em ambos, discutimos como tais ferramentas podem levar conhecimento relevante ao loop de experimentos científicos, apoiando o human-in-theloop (HIL). Os resultados experimentais mostram que nossa abordagem pode viabilizar experimentos que seriam difíceis ou impossíveis com o HIL tradicional. Por fim, discutimos como motores para execução de workflows e seus dados de proveniência poderiam ser usados a fim de estender este trabalho à fase de execução de experimentos científicos.

Abstract

Finding the best way to make the data well-grounded in domain knowledge is an important challenge in large-scale experiments. While this responsibility inherently depends on the role of domain experts, the large amount of domain-related facts and their associated complexity increasingly makes this role too labor-intensive, susceptible to errors, and sometimes unfeasible. However, there are computational tools that could help to cope with these difficulties, thus enhancing the conditions for data-driven science.

We study the aforementioned challenge and propose a set of tools to help grounding the data in the composition, execution and analysis phases of the scientific experiment lifecycle. We design two experiments: the first focusing on the analysis phase and the second with focus on the composition phase. In the first, we resort to the current state-of-the-art technology in knowledge base construction in order to organize domain knowledge scattered across heterogeneous data sources. In the second, we leverage the state-of-the-art environment for interactive computing in order to tap into well-established knowledge bases. In both experiments we discuss how such technologies can bring relevant knowledge to the loop of scientific experiments, approaching human-in-the-loop support (HIL). The obtained experimental results show that our approach may enable a breed of experiments that could be unfeasible with traditional HIL. Finally, we discuss how provenance data could be binded to knowledge bases and leveraged by workflow engines to enable further research on the execution phase.

Arquivo
Topo