Informações:

Publicações do PESC

Título
Gerência de Dados Genômicos em Workflows de Bioinformática
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
13/8/2008
Resumo

A gerência dos dados envolvidos nos experimentos científicos é uma tarefa árdua para os Sistemas de Gerência de Workflows Científicos (SGWfCs), pois cada domínio de aplicação científica, como bioinformática, por exemplo, possui esquemas, metadados ou ontologias, mais adequados ao seu contexto. Os esquemas de dados propostos pelos SGWfCs são extremamente simples e não substituem os esquemas de dados dos domínios de aplicação, que por sua vez, não são facilmente incorporados aos SGWfCs. Além da heterogeneidade de esquemas há também o problema da captura de dados semânticos ao longo do ciclo de vida do experimento. Esta dissertação propõe uma arquitetura para a gerência de dados genômicos em workJZows de bioinformática, na qual são considerados o aproveitamento das soluções para definição, execução e proveniência de dados de Workflows pelos principais SGWfCs e, como repositório para estes dados, o esquema padronizado para o domínio da bioinformática GUS (Genomic Unified Schema). São propostos serviços que, acoplados aos SGWfCs, possibilitam a definição do que deve ser armazenado e em que etapas do experimento esta tarefa deve ocorrer. É efetuado o mapeamento e armazenamento dos dados de proveniência gerados ao longo do ciclo de vida dos experimentos da bioinformática, permitindo análises mais sofisticadas sobre as infornações geradas. O uso de um workflow real evidenciou as vantagens da solução apresentada.

Abstract

The management of scientific data involved with in-silico expesiments is a difficult task for Scientific Workflows Management Systems because each scientific domain, like bioinformatics os geology, has schemas, nietadata and ontologies adjusted for its specific context. Scientific Workflows Managernent Systems (SWfMSs) cornmonly proposes simple data schemas that do not substitute domain specific data schemas and it is not easy to couple these schemas to SWfMSs.

In the moleculas biology scientific scenasio, an aschitecture is proposed to manage genomic data produced by bioinfonnatics workflows. This strategy considers definition, execution and data provenance solutions proposed by the main SWfMSs and the GUS schema (Genomic Unified Schema) as default bioiiiforniatics domain schema, where these provenance data will be storage.

This aschitecture suggests services that can be connected to one of these SWfMSs. With these services it will be possible to specify which data to store in the provenance domain repository and, moreover, in which step of the workflow will this capture occurs.The solution provides the automatic workflow produced data mapping to the chosen schema, supporting data provenance and aaalysis.

Arquivo
Topo