

Person role Person
Jacson Hwang


Pesc publication

Resolução de Entidades Utilizando Multidões
Research area
Data and Knowledge Engineering
Publication type
Master's thesis
Identification Number

É notável a facilidade da criação de novas bases de dados, tornando esta, que era uma tarefa difícil, algo trivial. É comum uma instituição criar múltiplas bases de dados que mantém referências às mesmas entidades no mundo real, como pessoas, produtos e endereços, por exemplo. Ou seja, é evidente a redundância de informações em diferentes fontes de dados. Isto pode acarretar inconsistências indesejadas e é um empecilho em atividades posteriores de mineração de dados e Business Intelligence. Resolução de Entidade é um processo que determina se duas referências ao mundo real são, na realidade, referências à mesma entidade. Crowdsourcing é o ato de reunir um grupo de pessoas desconhecidas a fim de realizar diversos tipos de tarefas. Essas tarefas podem exigir inteligência, raciocínio lógico, expertise e criatividade, tornando a multidão uma forte candidata na resolução de entidades. Desta forma, o objetivo deste trabalho é propor um modelo capaz de explorar e potencializar a capacidade da multidão sem comprometer a qualidade dos dados, fator essencial para a resolução de entidades.


It is remarkable the simplicity of the creation of new databases, turning this task, which was a difficult one, into something trivial. It is common for an institution to create multiple databases that maintain references to the same entities in the real world, such as people, products and addresses, for example. That is, it is evident the redundancy of information in different sources of data. It can cause undesirable inconsistencies and it is a hindrance to later activities of data mining and Business Intelligence. Entity Resolution is a process that determines if two references of the real world are, actually, references to the same entity. Crowdsourcing is the act of gathering a group of unknown people in order to realize many types of tasks. These tasks may require intelligence, logical reasoning, expertise and creativity, turning the crowd into a strong candidate in the entity resolution. This way, the objective of this work is to propose a model capable of exploring and potentiating the capability of the crowd without compromising the quality of the data, essential fact to the entity resolution.