Autores

5705
Danilo Silva de Carvalho
2624,131,162
5706
2624,131,162
5707
2624,131,162

Informações:

Publicações do PESC

Título
Extração de Relações Semânticas em Reivindicações de Patentes
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
27/11/2014
Resumo
Nos últimos anos, o foco econômico industrial em todo o mundo vem sendo desviado, passando da produção de ativos tangíveis para o conceito de Propriedade Intelectual, cuja proteção é regulamentada em muitos países pelo sistema de patentes.
Com um crescente número de patentes concedidas, a gestão de informações relativas à inovação tornou-se uma tarefa árdua, levando ao desenvolvimento de diversas abordagens para sua automatização. Nestas abordagens predomina o uso de técnicas de Processamento de Linguagem Natural, mas as características deste tipo de documento criam grandes dificuldades para seu uso sem o auxílio de recursos externos, como ontologias de patentes, que limitam sua aplicação. Nesta dissertação é apresentado um método para extração de informações das reivindicações de patentes, através da identificação de unidades de significado relevantes aos documentos, na forma de fragmentos de texto chamados ``segmentos semânticos''. Este método utiliza apenas exemplos de reivindicações já segmentadas como ponto de partida para a extração, sendo portanto independente de outros recursos externos e aplicável a qualquer tipo de patente. A hipótese usada na condução do trabalho foi a de que há uma forte correlação entre a forma (sintaxe) e o significado em textos factuais, onde a ausência de ambiguidade é um requisito importante. Os experimentos conduzidos confirmaram tal hipótese, mostrando que é possível distinguir e relacionar uma parcela considerável das informações relevantes contidas nos documentos analisados. Os experimentos também mostraram que uma pequena quantidade de exemplos já é suficiente para a identificação das informações com maior regularidade na forma e que a abrangência das informações obtidas está positivamente relacionada à quantidade de exemplos apresentados.
Abstract

In recent years, industrial economic focus has been changing all over the world, diverging from the production of tangible assets to the concept of Intellectual Property, for which protection is regulated by the patent system in many countries.

With the increasing number of granted patents, the management of innovation related information has become a very difficult task, leading to the development of several approaches for its automation. In such approaches, the use of Natural Language Processing techniques is predominant, but characteristics of those documents impose considerable difficulties to the use of such techniques without the employment of external resources, such as patent ontologies, limiting their application. This dissertation presents a method for information extraction from patent claims, by the identification of relevant units of meaning for the documents, in the form of text fragments called ``semantic segments''. This method uses only examples of already segmented claims as the starting point for extraction, thus being independent from external resources and can be applied to any type of patent. The hypothesis adopted in the course of this work was that there is a strong correlation between the form (syntax) and the meaning on factual texts, where the absence of ambiguity is an important requirement. The experiments conducted confirmed such hypothesis, showing that it is possible to distinguish and relate a significant part of the relevant information in the analyzed documents. The experiments have also shown that a small number of examples is enough for identifying the information with the most regular forms, and that the recall of the information obtained is positively related to the number of examples presented.

Topo