Autores

4152
1839,200
4153
1839,200

Informações:

Publicações do PESC

Título
Imputação Multivariada: Uma Abordagem em Cascata
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
22/8/2008
Resumo

As aplicações atuais e a evolução tecnológica vêm promovendo a produção e o armazenamento de um grande volume de dados. Este cenário faz com que a existência de valores ausentes em registros das bases de dados inevitavelmente aumente. Estas lacunas prejudicam a análise dos dados, além de dificultar ou mesmo inviabilizar o processo de abstração de conhecimento a partir deles.

Desta forma, este trabalho tem por objetivo propor uma abordagem em cascata para tratar a imputação multivariada com reutilização dos valores imputados, bem como avaliar o impacto da ordem no processo de imputação e da reutilização dos valores imputados na correlação original da base de dados. Nesta abordagem o processo de imputação é precedido pela tarefa de agrupamento usando como critério a morfologia da ausência. Os casos incompletos são distribuídos em grupos considerando como critério de pertinência o conceito de morfologia da ausência neles existentes. A morfologia de ausência é um conceito aqui proposto para descrever a distribuição de valores presentes e ausentes nos atributos de um conjunto de casos. Portanto, os grupos são formados por casos similares quanto à forma de distribuição de seus atributos não preenchidos.

Os resultados experimentais mostram melhora da qualidade dos dados sugeridos pela imputação sequencial em cascata quando comparada com a imputação sequencial com e sem reutilização dos valores imputados.

Abstract

Nowadays applications and technological evolution have caused the production and storage of huge volumes of data. This scenario facilitated the increased occurrence of missing values in data sets. Missing data is harmful for statistical analysis, complicating or even not allowing the process of extracting knowledge from these non preprocessed data.

Hence, this work aims to propose a cascade approach to the problem of 

multivariate imputation of missing values. Introduce the idea of clustering using the morphology of the missingness before the imputation and analyze the effects of the order in sequential imputation as well as the correlation in data sets.

Experimental results illustrate the comparision between this approach and sequential imputation with and without reuse. They indicated that cascade imputation achieves quality improvement of imputed data.

Arquivo
Topo