Autores

4509
299,10,504
4510
299,10,504
4511
299,10,504

Informações:

Publicações do PESC

Título
DWFIST: Uma Abordagem Baseada em Data Warehouse para Exploração e Análise de Conjuntos Frequentes
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
24/8/2005
Resumo
Esta tese propõe a abordagem DWFIST, que se preocupa em dar suporte à análise e exploração de conjuntos de itens frequentes e padrões derivados, e. g. regras de associação, em bases de dados transacionais. A meta desta nova abordagem pode ser resumida com a seguinte dupla contribuição: oferecer (1) funcionalidades flexíveis para recuperação de padrões sem requerer os dados originais durante a fase de análise e (2) uma modelagem padrão para data warehouses de conjuntos de itens frequentes facilitando o desenvolvimento e reutilização de ferramentas para análise e exploração de padrões baseados em conjuntos de itens. Um data warehouse que armazena conjuntos de itens frequentes válidos em diferentes partições das transações originais desempenha um papel central na nossa abordagem. Depois de discutir as tarefas de pré-processamento efetuadas na staging area, nós apresentamos esquemas padrões nos níveis conceitual e lógico visando uma modelagem padrão. Propriedades desta modelagem padrão permitem uma combinação flexível de qualquer conjunto de partições. Os conjuntos de itens frequentes válidos em qualquer conjunto de partições podem ser recuperados junto com limites superiores e inferiores em suas contagens de frequência. Questões de completude e precisão relacionadas a um conjunto de itens frequentes recuperado do data warehouse também são discutidas.
Abstract

This thesis proposes the DWFIST approach, which is concerned with supporting the analysis and exploration of frequent itemsets and derived patterns, e.g. association rules, in transactional datasets. The goal of this new approach can be summarized as the following twofold contribution: provide (1) flexible pattern-retrieval capabilities without requiring the original data during the analysis phase, and (2) a standard modeling for data warehouses of frequent itemsets allowing an easier development and reuse of tools for analysis and exploration of itemset-based patterns. A data warehouse storing frequent itemsets holding on different partitions of the original transactions plays a central role in our approach. After discussing pre-processing tasks performed in the staging area, we present standard conceptual and logical schemas aiming at a standard modeling. Properties of this standard modeling allow for a flexible combination of any set of partitions. The frequent itemsets holding on any set of partitions can be retrieved along with upper and lower bounds on their frequency counts. Completeness and precision issues related to the retrieved set of frequent itemsets are discussed as well.

Arquivo
Topo