Autores

4312
250,1926
4313
250,1926

Informações:

Publicações do PESC

Título
Tornando a Programação em Lógica Indutiva (ILP) Escalável a Bases de Dados Arbitrariamente Grandes
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
28/6/2006
Resumo

Atualmente, sistemas de informação estão em toda parte. Como resultado desse cenário, bases de dados muito grandes se tornaram bastante comuns. Ao trabalhar com tais bases, um grande problema surge: os algoritmos tradicionais de aprendizado não são capazes de trabalhar com tantos exemplos. Este trabalho propõe uma família de sistemas ILP, chamada VFILP (Very Fast ILP), que podem processar bases de dados relacionais muito grandes. Esta família é composta por 3 sistemas: VFILPh, VFILPpprog e VFILPprog. O dois primeiros sistemas utilizam proposicionalização para transformar os dados relacionais em uma representação proposicional. A fim de construir a teoria, VFILPh usa o sistema VFDT, que é um algoritmo de árvore de decisão preparado para processar milhares de exmplos. Os demais sistemas utilizam amostragem progressiva para melhorar a performance do aprendizado. Todos os sistemas foram testados em 2 bases de dados, uma sintética com 1250000 exemplos, e outra real com 622382 exemplos. Os resultados obtidos mostram que não apenas os sistemas obtiveram uma boa acurácia, como também geraram a teoria desejada para a base sintética.

Abstract

Nowadays, information systems are everywhere. As a resrrlt of this, very large data sets liave become very cominon. Working witli tliese data sets, tliere is a major problem: the well-known learning algorithms are not able to deal with so many examples. This work proposes a family of ILP systems, named VFILP (Very Fast ILP), that cal1 process very large relational data sets. Tliis family is composed by 3 systems: VFILPh, VFILPpprog and VFILPprog. Tlle first two systems use propositionalization to translate the relational data to a propositional representation. In order to constriict a theory, VFILPh uses the VFDT system, which is a decision tree algorithm prepared to process very large data sets. The others systems use progressive sampling to xale iip ttlie learning task. A11 the systems were tested in 2 data sets, one synthetic with 1250000 examples, and one real with 622382 examples. Tlie results show tliat not only the systeins have obtained a goocl accuracy, but also they generated the clesiied theory for the synthetic data set.

Arquivo
Topo