Informações:

Publicações do PESC

Título
Agrupamento Semi-Supervisionado de Documentos XML
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
16/1/2006
Resumo

Na medida em que provedores de informações podem expressá-las de maneiras mais complexas e contextualizadas, documentos semi-estruturados estão se tornando importantes em áreas como bibliotecas digitais, comércio eletrônico e aplicações Web. Uma característica dessas coleções de documentos é a existência de alguma estrutura ou metadado. Nesse cenário, métodos de agrupamento que possam aproveitar essa informação estrutural para melhor organizar tais coleções são altamente relevantes. Contudo, documentos semi-estruturados apresentam novos desafios para métodos de agrupamento, pois não é claro como informação estrutural pode ser utilizada para melhorar os resultados do agrupamento. Por outro lado, recentemente tem havido um crescente interesse na tarefa de agrupamento semi-supervisionado, na qual uma pequena quantidade de conhecimento prévio é fornecida para guiar o algoritmo para um melhor resultado. Um tipo particular de semi-supervisão são restrições (fornecidas pelo usuário) sobre objetos a serem agrupados. Cada restrição define se dois objetos devem permanecer no mesmo ou em diferentes grupos. Nesta tese, consideramos o problema de agrupamento baseado em restrições sobre documentos semi-estruturados. Consideramos a existência de uma forma particular de informação estrutural: documentos textuais em formato XML. Definimos e estendemos métodos para melhorar a qualidade dos resultados de agrupamento através do uso de informação estrutural para guiar o algoritmo. Resultados experimentais em coleções de documentos do mundo real mostram que nossa abordagem é efetiva.

Abstract

As providers of information can express it in more contextualized and complex ways, semi-structured documents are becoming important in many areas, e.g., in digital libraries, e-commerce or Web applications. A particular characteristic of such document collections is the existence of some structure or metadata along with the data. In this scenario, clustering methods that can take advantage of such structural information to better organize such collections are highly relevant. Semi-structured documents pose new challenges to clustering, however, since it is not clear how this structural information can be used to improve the quality of the generated clustering models. On the other hand, recently there has a growing interest in the semi-supervised clustering task, in which a little amount of prior knowledge is provided to guide the algorithm to a better clustering model. A particular type of semi-supervision is in the form of user-provided constraints defined over pairs of objects, where each pair informs if its objects must be in the same or in different clusters. In this thesis, we consider the problem of constrained clustering in documents that present some form of structural information. We consider the existence of a particular form of information to be clustered: textual documents that present a logical structure represented in XML format. We define and extend methods to improve the quality of clustering results by using such structural information to guide the execution of the constrained clustering algorithm. Experimental results on real-world document collections show the effectiveness of our approach.

Arquivo
Topo