Informações:

Publicações do PESC

Título
A Função do Índice de Síntese das Linguagens na Classificação Gramatical com Redes Neurais sem Peso
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
3/8/2012
Resumo

A classificação gramatical de palavras em uma sentença é o ponto de partida para tarefas mais complexas, por exemplo, como a inferência de gramáticas. Para isso, as ferramentas responsáveis por tal procedimento precisam ter uma taxa de acerto muito elevada e um tempo muito baixo para classificar as palavras. As mais usadas hoje em dia utilizam abordagens que requerem o uso de processos iterativos, tornando a fase de treino muito lenta. Esta lentidão impossibilita a tarefa de classificação gramatical multilíngue, uma vez que, conforme o número de línguas cresce, o mesmo ocorre com o tempo de treinamento. Nesta dissertação se apresenta uma proposta para tornar o treinamento de classificadores gramaticais mais ágil. Primeiramente, propõe-se usar a WiSARD, uma arquitetura de rede neural sem peso, para executar as tarefas de classificação gramatical, uma vez que esta não necessita atingir qualquer convergência em seu treino. Ademais, cogita-se que haja uma relação direta entre os valores dos índices de síntese e os dos parâmetros da configuração ótima de rede para classificação gramatical em uma dada linguagem. Os experimentos conduzidos mostram que a arquitetura WiSARD realmente acelera a fase de treino dos classificadores gramaticais e também que se podem usar os valores dos índices de síntese para se estimar a melhor configuração da WiSARD capaz de executar classificações gramaticais em uma língua. Além disso, os experimentos também indicam que a classificação gramatical de palavras com a WiSARD é bem mais correta e precisa que a encontrada na literatura.

Abstract

Tagging parts of speech in a sentence is the foothold for more complex tasks, such as grammatical inference. In order to perform it, part-of-speech tagging toolkits need to have both a high accuracy value and a very low tagging time. Currently, the most commonly used toolkits make use of approaches that require time-consuming iterative processes, making the training phase too slow. This has hindered the adoption of multilingual part-of-speech tagging, since time spent in the training phase used to grow according to the number of languages. This dissertation presents a proposal to hasten the training phase of the part-of-speech tagging process. First, it is proposed to use WiSARD, a weightless artificial neural network architecture, to perform part-of-speech tagging tasks, as it does not need to achieve any convergence during the training phase. It is also considered that there is a direct relation between the index of synthesis values and those of the parameters of the optimal network configuration for part-of-speech tagging in a given language. The experiments conducted demonstrate that WiSARD architecture really hastens the training phase of part-of-speech taggers and that the index of synthesis values can be used to estimate the best WiSARD configuration capable of tagging parts of speech in any language. Furthermore, the experiments show that both the accuracy and the precision of part-of-speech tagging tasks with WiSARD are higher than the state of the art.

Topo