Autores

2194
51,936
2195
51,936

Informações:

Publicações do PESC

Título
Dig: Um Serviço para Prover custos e Estatísticas para o Processamento Distribuído de Consultas
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
18/11/2002
Resumo

Parâmetros de custos e estatísticas constituem a base das técnicas de otimização de consultas. Contudo, em ambientes distribuídos e heterogêneos, a aquisição e o tratamento dessas informações costumam ser abordados como tarefas do processador global de consultas, limitando tais funcionalidades a uma arquitetura de sistema específica. Além disso, nesses ambientes, o processo de aquisição de custos envolve um número grande de parâmetros e requer métodos adequados para coleta de dados em fontes específicas. O DIG (Dístríbuted Informatíon Gatherer) consiste em um provedor de custos e estatísticas que, através de um serviço flexível e independente, visa apoiar o processo de otimização global de consultas em um ambiente distribuído, heterogêneo e com fontes de dados autônomas. A arquitetura do DIG apresenta dois tipos básicos de componentes: módulos provedores de custos e estatísticas, que realizam o tratamento e a publicação dos dados coletados; e módulos coletores responsáveis pela aquisição de dados nas diversas fontes, repassando-os para os respectivos provedores. A aquisição de dados é realizada pelo coletor DIG através da submissão de consultas ou comandos pré-estabelecidos (em um arquivo específico de configuração) para cada estatística ou parâmetro de custo a ser coletado. Os dados coletados são publicados pelo provedor DIG através de um catálogo genérico de custos e estatísticas, que suporta desde fontes de dados semi-estruturadas ou não estruturadas (por exemplo, arquivos de texto e páginas Web) até fontes de dados com SGBDs sofisticados. Nós desenvolvemos um protótipo do DIG que foi avaliado com coletores específicos para um míddleware de consulta sobre fontes de dados semi-estruturados e também para um protótipo de SGBD baseado em objetos.

Abstract

Cost pararneters and database statistics are the basis of query optimization techniques. However, in distributed and heterogeneous database systems, acquiring and treating information to help the optimization process are often tasks of a global query processor, tailoring these functionalities to a specific system architecture. Moreover, this acquisition process involves a large number of pararameters and requires customized methods to retrieve data from specific sources. DIG (Distributed Information Gatherer) is a cost and statistics provider that, through an independent and flexible service, aims to support global query optimization processing in distributed, heterogeneous database systems over autonomous data sources. The DIG architecture presents two basic components: a module provider of costs and statistics, that does the handling and the publication of the collected data; and module collectors responsible for the data acquisition on diverse sources, which pass the collected data to the according provider. The data acquisition is performed by the DIG collector through the submission of queries or predefined commands (in a specific configuration file) for each statistic or cost parameter being collected. The collected data are published by the DIG provider through a generic catalog of costs and statistics, which supports from semi-structured or non-structured data sources (e.g., text files and web pages) to data sources with sophisticated SGBDs. We have developed a DIG prototype and evaluated it with specific wrappers for a query middleware on semi-structured data sources and also for an object-based DBMS.

Arquivo
Topo