HTILDE: Tornando Árvores de Decisão Relacionais Escaláveis para Grandes Bases de Dados
Autores
6180 |
2818,250
|
|
6181 |
2818,250
|
Informações:
Publicações do PESC
Atualmente, muitas organizações possuem bases de dados com milhões de registros. Uma questão relevante é como extrair informações a partir dessas bases uma vez que, devido a limitações de tempo e até de espaço, os algoritmos tradicionais não podem ser usados. Domingos e Hulten criaram uma metodologia baseada em amostragem para tornar algoritmos de aprendizado de máquina escaláveis para grandes bases de dados. Ela usa o limite de Hoeffding para escolher o número de exemplos que será utilizado pelo algoritmo e foi aplicada a alguns métodos proposicionais, como o VFDT, que é uma árvore de decisão. Outro interesse que surge é o de se utilizar sistemas ILP para aprender modelos a partir destas bases de dados, devido ao caráter relacional das mesmas. Entretanto, sistemas ILP são menos eficientes do que os proposicionais devido ao alto custo de se testar se uma cláusula cobre um exemplo. O TILDE é uma árvore de decisão de lógica de primeira ordem que prova exemplos de maneira eficiente por utilizar o aprendizado a partir de interpretações e os pacotes de cláusulas. O presente trabalho propõe o HTILDE, uni sistema ILP escalável para grandes bases de dados baseado no TILDE e no VFDT. O sistema foi testado em duas bases de dados, uma sintética e outra real. Os resultados obtidos mostram que o HTILDE consegue gerar teorias, para bases de dados muito grandes, de forma mais eficiente e sem haver prejuízo para as medidas de qualidade das mesmas.
Nowadays, many organizations have databases with millions of records. An important question is how to extract information from these databases, since traditional machine learning algorithms can not be used, due to time and even space limitations. Domingos and Hulten created a methodology, based on sainpling, for scaling up machine learning algorithms for large databases. It uses Hoeffding bound for choosing the number of examples that will be used by the algorithm and it was applied to some propositional methods, like VFDT, which is a decision tree. Also, it would be interesting to use ILP systems to learn models from these databases, due to the relational aspect of them. However, ILP systems are less efficient than proposicional ones due to the high cost of testing whether a clause covers an example. TILDE is a first order logical decision tree whicli efficiently proves examples by using learning from interpretations and query packs. This work proposes HTILDE, wliich is an ILP system, based on TILDE and VFDT, able to handle large databases. The system was tested in two datasets, a synthetic one and a real one. The results show that HTILDE generates theoiies, fiom very large datasets, more efficiently and without harining their quality measures.