Informações:

Publicações do PESC

Título
Construção de Taxonomias sobre Informações Compostas por Descrições Ambíguas com Enriquecimento por meio de Utilização de Dicionários on-line
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
25/3/2015
Resumo

O crescimento explosivo da quantidade e variedade de informações armazenadas em sistemas trouxe à tona o desafio da capacidade de definir uma representação textual e classificar esse volume de informações com base nas suas particularidades textuais e linguísticas. Este desafio emerge de forma mais aguda nas bases de dados que recebem informações externas oriundas de organizações diversas, agravando a questão da ambiguidade descritiva dos objetos a serem analisados e classificados. O desafio de se analisar grandes bases de dados heterogêneas está apenas começando, pois a expansão da conectividade e da variedade dos sistemas que coletam informações continua em franca expansão. Para lidar com esse desafio, diversas técnicas estão sendo desenvolvidas. Este trabalho apresenta um framework que utiliza algoritmos de desabreviação, agentes reconhecedores de padrões gerados pelo aprendizado de máquina e classificadores de bases textuais com a utilização de informações oriundas da Web a fim de identificar instâncias e gerar uma taxonomia a partir de suas respectivas descrições a partir de uma base de dados heterogênea que recebeu informações de mais de 5000 sistemas diferentes. 

Abstract

The explosive growth, both in quantity and in variety of the information stored in systems brought up the challenge to define a textual representation for this information  based on textual and linguistic peculiarities. This problem occurs more frequently in the databases that receive external information coming from different organizations, where the problem of descriptive ambiguity of the objects that should be analyzed and classified is aggravated. The challenge of analyzing large heterogeneous databases is just beginning following the expansion of connectivity and the variety of systems that collect information. To address this challenge effectively, several techniques were employed. This work presents a framework that uses desabreviation, agents-based algorithms generated by machine learning capable to recognize textual patterns classifiers, data enriching with Web information and generate a taxonomy from their respective descriptions over an heterogeneous database composed by contribution of more than 5000 different information systems.

Topo