HTILDE-RT: Um Algoritmo de Aprendizado de Árvores de Regressão de Lógica de Primeira Ordem para Fluxos de Dados Relacionais
Autores
5174 |
250,2333
|
|
5175 |
250,2333
|
Informações:
Publicações do PESC
Atualmente, organizações modernas armazenam seus dados sob a forma de bancos de dados relacionais que crescem mais rapidamente que a capacidade de hardware. Entretanto, a extração de informação tornou-se uma tarefa crucial para a sobrevivência das corporações. Neste trabalho, propomos o algoritmo HTILDE-RT, um algoritmo incremental escalável para aprender de forma eficiente árvores de regressão de lógica de primeira ordem em fluxos de dados relacionais. O HTILDE-RT é baseado no sistema ILP de regressão TILDE-RT e no sistema proposicional de aprendizado em fluxos VFDT. O algoritmo proposto utiliza o limitante de Hoeffding para tornar o processo de aprendizado escalável. O HTILDE-RT foi comparado com o TILDE-RT em grandes massas de dados, com 2 milhões de exemplos cada, acelerando o aprendizado entre 2,4 e 260 vezes, gerando predominantemente modelos menores e sem perdas estatisticamente significativas em relação ao coeficiente de correlação de Pearson, porém com discreta perda em relação ao RMSE, entre 0% a 2% maior. Esses resultados experimentais sugerem uma boa troca entre escalabilidade (velocidade e tamanho) e acurácia. Adicionalmente, são apresentados novos resultados obtidos com o algoritmo ILP de classificação HTILDE, um dos sistemas base do HTILDE-RT.
Currently, modern organizations store their data under the form of relational databases which grow faster than hardware capacities. However, extracting information from such databases has become crucial for corporations survival. In this work we propose HTILDE-RT, a scalable incremental algorithm to learn first-order logical regression trees efficiently from relational data streams. HTILDE-RT is based on the regression ILP system TILDE-RT and the propositional data stream learner VDFT. The proposed algorithm uses the Hoeffding bound to scale up the learning process. HTILDE-RT was compared with the batch learner TILDE-RT over large regression datasets, with two million examples each, speeding up the learning time between 2.4 and 260 times, generating predominantly shorter models and without showing significant statistical differences with respect to the Pearson coefficient, but with a small loss in RMSE, between 0% and 2%. These experimental results suggest a good trade-off between scalability (speed and size) and accuracy. Moreover, we show new results yielded by the classification ILP system HTILDE, a base system of HTILDE-RT.