Imputação Multivariada: Uma Abordagem em Cascata
Autores
4152 |
1839,200
|
|
4153 |
1839,200
|
Informações:
Publicações do PESC
As aplicações atuais e a evolução tecnológica vêm promovendo a produção e o armazenamento de um grande volume de dados. Este cenário faz com que a existência de valores ausentes em registros das bases de dados inevitavelmente aumente. Estas lacunas prejudicam a análise dos dados, além de dificultar ou mesmo inviabilizar o processo de abstração de conhecimento a partir deles.
Desta forma, este trabalho tem por objetivo propor uma abordagem em cascata para tratar a imputação multivariada com reutilização dos valores imputados, bem como avaliar o impacto da ordem no processo de imputação e da reutilização dos valores imputados na correlação original da base de dados. Nesta abordagem o processo de imputação é precedido pela tarefa de agrupamento usando como critério a morfologia da ausência. Os casos incompletos são distribuídos em grupos considerando como critério de pertinência o conceito de morfologia da ausência neles existentes. A morfologia de ausência é um conceito aqui proposto para descrever a distribuição de valores presentes e ausentes nos atributos de um conjunto de casos. Portanto, os grupos são formados por casos similares quanto à forma de distribuição de seus atributos não preenchidos.
Os resultados experimentais mostram melhora da qualidade dos dados sugeridos pela imputação sequencial em cascata quando comparada com a imputação sequencial com e sem reutilização dos valores imputados.
Nowadays applications and technological evolution have caused the production and storage of huge volumes of data. This scenario facilitated the increased occurrence of missing values in data sets. Missing data is harmful for statistical analysis, complicating or even not allowing the process of extracting knowledge from these non preprocessed data.
Hence, this work aims to propose a cascade approach to the problem of
multivariate imputation of missing values. Introduce the idea of clustering using the morphology of the missingness before the imputation and analyze the effects of the order in sequential imputation as well as the correlation in data sets.
Experimental results illustrate the comparision between this approach and sequential imputation with and without reuse. They indicated that cascade imputation achieves quality improvement of imputed data.