Autores

4160
806,160
4161
806,160

Informações:

Publicações do PESC

Título
Uma Nova Metodologia para Melhoramento de Classificadores Baseados em ILP
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
30/9/2008
Resumo

Sistemas em Programação Lógica Indutiva (ILP) têm sido usados com sucesso na extração de modelos relacionais de dados. A maioria dos sistemas ILP usam um algoritmo guloso de cobertura para obter o melhor conjunto de cláusulas que descreve os exemplos. Este conjunto de cláusulas é chamado de teoria. A busca pela melhor teoria, usando o algoritmo guloso, consome muito tempo e frequentemente produz classificadores demasiadamente complexos. Uma abordagem alternativa para obter um classificador ILP é aprender uma cláusula por vez e usar métodos de ensemble para combinar estas cláusulas. A vantagem desta abordagem é que é muito mais rápido obter uma cláusula no sistema ILP do que obter uma teoria inteira. Além disso, este método obtém classificadores menos complexos. Neste trabalho, apresentamos três diferentes abordagens para combinar cláusulas. Na primeira abordagem, usamos o método de bagging para gerar um ensemble de cláusulas e comparamos o classificador obtido com uma teoria e um ensemble de teorias. Na segunda abordagem, introduzimos uma nova metodologia, denominada Nata, que seleciona as melhores cláusulas baseadas em suas coberturas. Após selecionar as cláusulas, o classificador é apresentado como a disjunção destas cláusulas. Na terceira abordagem, combinamos as classificações dadas pelas cláusulas obtidas pelo sistema ILP usando Máquinas de Vetor Suporte gerando um classificador híbrido. Testamos estas abordagens em problemas clássicos em ILP e em uma base de dados real obtida do National Mammography Database (NMD) americano. Nossos resultados mostram que estas abordagens são mais rápidas e produzem classificadores melhores e menos complexos do que os métodos tradicionais.

Abstract

Inductive Logic Programming systems (ILP) have been successfully used to extract relevant information from relational data. Most ILP systems use a greedy cover algorithm to obtain the best set of clauses that describe the examples. This set of clauses is called a theory. Generally, the search for the best theory, using the greedy algorithm, is very time consuming and can produce overly complex classifiers. An alternative approach to obtain an ILP classifier is to learn one clause at a time and use ensemble methods to combine these clauses. The advantage of this approach is that it is much faster (severals orders of magnitude) to obtain one clause in the ILP system than to obtain a whole theory. And, as we show, this method obtains less complex classifiers. In this work, we present three different approaches to combine the clauses. In the first one, we use bagging to generate an ensemble of clauses and compare the obtained classifer with a theory and an ensemble of theories. In the second approach, we introduce a new methodology, called Nata, that selects the best clauses based on their coverage. After selecting the clauses, the classifier is presented as the disjunction of these clauses. In the third approach, we combine the clauses obtained by the ILP system using Support Vector Machines generating a hybrid classifier. We tested these approaches on classic ILP problems and on a real dataset obtained from the National Mammography Database (NMD). Our results show that these approaches are faster than traditional ones and can produce better and less complex classifiers.

Arquivo
Topo