Autores

5959
2742,299
5960
2742,299

Informações:

Publicações do PESC

Título
Abordagens de Técnicas de LSH Aplicadas ao Problema de Similaridade de Documentos
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
19/2/2016
Resumo
Neste trabalho, são apresentadas quatro novas abordagens para o cálculo da similaridade entre conjuntos de alta dimensionalidade através da estimativa do tamanho relativo da sua interseção. Esses novos métodos foram desenvolvidos a partir da abordagem Minwise Hashing, uma instância da família de funções Locality-Sensitive Hashing. O foco do nosso estudo é explorar diferentes formas de representar documentos em grandes corpora. Cada uma das abordagens propostas examina uma ou mais características (operadores) dos documentos analisados. E, a partir delas, é possível estimar a similaridade entre pares de documentos, extraindo informações úteis para diferentes cenários. Além das abordagens propostas, também apresentamos os experimentos realizados em uma aplicação real de reúso textual, o corpus METER, constituído de publicações jornalísticas da imprensa britânica. Por fim, comparamos os resultados dos experimentos aos produzidos pelo método Minwise Hashing, e constatamos que a abordagem proposta MinMaxwise Hashing apresenta resultados superiores aos obtidos com os outros metodos estudados no presente trabalho.
Abstract
In this work, we present four new approaches for calculating the similarity between high dimensional sets by estimating the relative size of their intersection. These new methods have been developed from the Minwise Hashing approach, an instance of the family of functions Locality-Sensitive Hashing. The focus of our study is to explore di erent ways of representing documents in large corpora. Each of the proposed approaches examines one or more characteristics (operators) of the analyzed documents. And from them, it is possible to estimate the similarity between pairs of documents, extracting useful information for diferent scenarios. In addition to the proposed approaches, we also present the experiments made in a real application of textual reuse, the METER corpus, consisting of journalistic publications of the British press. Finally, we compare the experimental results to those produced by the method Minwise Hashing, and we verify that the proposed approach MinMaxwise Hashing provides results superior to those obtained with the other methods studied in this work.
Arquivo
Topo