Informações:

Publicações do PESC

Título
Estratégias de Paralelismo na Busca por Similaridades em Sequencias de DNA e Proteínas Junto ao mpiBLAST
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
12/8/2005
Resumo

Esta dissertação analisa técnicas de bioinformática aplicadas na busca por similaridade de sequências de DNA e de proteínas. Em especial, é estudada a principal ferramenta de busca baseada em alinhamento local de sequências, denominada BLAST (Basic Local Alignment Search Tool). Embora o BLAST seja uma das ferramentas mais eficientes dentre as existentes, o número elevado de sequências a serem comparadas faz com que o tempo de processamento seja muito alto e chegue a durar semanas em alguns casos. Uma das técnicas de computação adequada nesses casos é o processamento paralelo. Porém, essas ferramentas são em geral "caixas-pretas" e para efeitos de comparação é importante que todos utilizem o mesmo algoritmo. Assim, ao invés de realizar uma paralelização no código fonte do BLAST, uma alternativa interessante é a obtenção do paralelismo através da distribuição de dados. Esta dissertação apresenta uma avaliação de estratégias de paralelismo junto ao BLAST e em especial realiza uma análise do mpiBLAST, que é um projeto de software livre que provê componentes para a execução paralela do BLAST. Como contribuição, a dissertação propõe alternativas de distribuição de dados para execução paralela junto ao mpiBLAST de modo a auxiliar o usuário na configuração do paralelismo mais adequado a sua busca.

Abstract

This dissertation analyzes bioinformatics' techniques applied in the search for protein and DNA sequences similarity. In special, the main tool for searching based in local alignment of sequences, called BLAST (Basic Local Alignment Search Tool). Although BLAST's one of the most efficient tools amongst existing ones, the high number of sequences to be coinpared lead to a high processing time, and in some cases it may last weeks. In these cases, one of the appropriated computation techniques is the parallel processing. In general, these tools are "blackbox" and for comparison purposes it is important that everyone uses the same algorithm. Thus, instead of parallelizing the BLAST's source code, an interesting alternative is to achieve parallelism through the data distribution. This dissertation presents an evaluation of parallel strategies applied to BLAST. In special the open source project mpiBLAST, which offers components to the parallel execution of BLAST is analyzed. As major contributions this dissertation proposes data distribution alternatives to the parallel execution of BLAST in order to support the configuration of the appropriated parallelism to the user's search.

Arquivo
Topo