Grânulos de Palavras para Representar Texto
Autores
5450 |
Patrícia Fiuza de Castro
|
299,2486
|
7122 |
299,2486
|
Informações:
Publicações do PESC
A quantidade de dados disponíveis em formato semi-estruturados ou não cresce exponencialmente. A área de mineração de texto visa a descoberta de conhecimento a partir de dados deste tipo. A maioria dos trabalhos nessa área utiliza o modelo conhecido como saco de palavras para representar os textos. Esta forma de representação, apesar de eficaz, minimiza a qualidade do conhecimento descoberto uma vez que não é capaz de capturar as características essenciais deste tipo de dados, tais como a semântica e contexto. O paradigma de computação granular tem sido demonstrado eficaz no tratamento de problemas complexos de processamento de informação e pode produzir resultados significativos em ambientes de larga escala, tais como a Internet. Este trabalho explora o processo de granulação de palavras com vista à sua aplicação na melhoria subsequente em representação de texto.
The amount of data available in semi-structured or unstructured format grows exponentially. The area of ??text mining aims at discovering knowledge from data of this type. Most work in this area uses the model known as bag of words to represent the texts. This form of representation, although effective, minimizes the quality of knowledge discovered because it is not able to capture essential characteristics of this type of data such as semantics and context. The paradigm of granular computing has been shown effective in the treatment of complex problems of information processing and can produce significant results in large-scale environments such as the Web. This work explores the granulation process of words with a view to its application in the subsequent improvement in text representation.