Autores

5413
Flavio Barbieri Gonzaga
2454,163,299
5414
2454,163,299
5415
2454,163,299

Informações:

Publicações do PESC

Título
Recuperação de Informação Orientada ao Domínio da Matemática
Linha de pesquisa
Redes de Computadores
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
27/3/2013
Resumo

O estudo da organização do conhecimento matemático, bem como a busca nesse domínio têm sido foco de alguns trabalhos recentes na literatura. O presente trabalho, cujo objetivo é o desenvolvimento de uma ferramenta de busca por fórmulas matemáticas, começa com a realização de um estudo detalhado da estrutura do conteúdo matemático com base em três das principais bibliotecas online: Wikipedia (apenas a parte matemática), MathWorld e DLMF. Como parte desse estudo são exibidas a presença de componentes fortemente conexas gigantes em todas elas, bem como a ausência de lei de potência nas distribuições que descrevem medidas locais (tais como graus, medidas de centralidade, dentre outras), juntamente com uma análise sobre o desempenho de cada uma dessas medidas como critério na ordenação de resultados em uma busca textual. O estudo dessas métricas fornece então uma intuição para a ordenação no domínio matemático. Na construção da busca por fórmulas, optou-se por desenvolver um analisador léxico para as linguagens nas quais as expressões são representadas nas bibliotecas. O objetivo é interpretar símbolos semelhantes (por exemplo, x ou y) como um mesmo token (VARIAVEL). Assim, foi possível a obtenção da ferramenta de busca que abrange cerca de 330.000 expressões, que por possuir as fórmulas caracterizadas segundo tokens definidos, oferece um certo grau de liberdade para diferentes notações dada uma mesma fórmula. O trabalho encerra com um estudo comparativo da qualidade da ferramenta desenvolvida com a Symbolab, outra proposta semelhante. A ferramenta aqui descrita é denominada SearchOnMath e está disponível em http://searchonmath.com/.

Abstract

The study of the organization of mathematical knowledge, as well as the search in this area has been focused by some recent works in the literature. The present study whose goal is the development of a search engine for mathematical expressions, starts with the realization of a detailed study of the mathematica structure content, based on three major online libraries: Wikipedia (only the mathematical content), MathWorld and DLMF. As part of this study are shown the presence of giant strongly connected components (GSCC) in all of them, well as the absence of power law in distributions that describe local features (such as degrees, centrality measures, among others), together with an analysis of the behavior of each of these measures as a criterion on ranking results in text search. The study of such metrics provides then an intuition about ranking order applied on Math domain. On development of search engine for formulas, a lexical analyzer was built for languages in which expressions are represented in libraries. The objective is interpret similar symbols (like x or y) as a same token (VARIABLE). Thus, it was possible to achieve the search engine that covers about 330,000$ formulas, where formulas are characterized according to some defined tokens, giving so a certain degree of freedom for different representations of a same formula. The work concludes with a study of the quality of the tool developed compared to Symbolab, another similar proposal. The tool described here is called SearchOnMath, and is available at http://searchonmath.com/.

Topo