Autores

4705
Rogea Rocha Silveira
312,2084
4706
312,2084

Informações:

Publicações do PESC

Título
Fragmentação Física de Dados em Data Warehouses Baseada em Arvores R
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
28/9/2007
Resumo

Data warehouses (DW) integram e acumulam grande volume de dados históricos provenientes das transações operacionais das organizações e de várias fontes externas para dar suporte ao processo de tomada de decisão das organizações. Consultas complexas, de alto custo e que exigem grande poder de processamento do SGBD são executadas sobre esse repositório para extração de informações estratégicas para a organização. Esta dissertação tem como objetivo melhorar o desempenho desse tipo de consulta levando-se em consideração a forma como a modelagem multidimensional organiza os dados de um DW. O esquema estrela gerado por essa modelagem é composto por tabelas dimensão e por tabelas fato e pode ser visto como um espaço multidimensional chamado de cubo de dados. Nós propomos uma abordagem que particiona esse espaço através de uma estrutura de indexação multidimensional, no nosso caso, a árvore R, utilizada para fragmentar fisicamente a tabela fato de um esquema estrela. A alocação dos fragmentos em um ambiente distribuído possibilita que as consultas sejam processadas através do paralelismo intra-consulta, que pode ajudar a reduzir consideravelmente o tempo de execução das consultas individualmente. Para validas nossa proposta, desenvolvemos um protótipo onde rodamos experimentos em um ambiente distribuído de 8 nós usando o benchmark TPC-H. Os resultados mostram que nossa proposta permite limitar o volume de dados a ser acessado por determinadas consultas, reduzindo desta forma seu tempo de execução.

Abstract

Data warehouses (DW) integrate and accumulate large volumes of historic data from operational transactions of organizations and fiom various externa1 sources, to support the organization's decision making process. Complex queries, costly and the one's that demand high processing power from the database engine, are run over the aforementioned repository to extract reports of strategic information for the organization. The objective of this work is to improve the performance of this type of queries taking into account the way in which multidimensional modeling organizes the data of a DW. The star scheme generated by this modeling is composed of dimension and fact tables and can be seen as a multidimensional space called data cube. Our proposed approach is to partition this space through a multidimensional indexing structure, in this case the R-tree that we use to physically fragment the fact table of a star scheme. The fragment allocation in a distributed environrnent allows queries to be processed through intra-query parallelism, which can help reduce considerably the execution time of queries individually. To validate our approach, we implemented a prototype where we ran experiments in an 8 nodes distributed environment using the TPC-H benchrnark. The results have shown that our approach allows limiting the volume of data to be accessed by certain queries, thus reducing its execution time.

Arquivo
Topo