Autores

6444
131,2388,2489,162
6445
131,2388,2489,162
6446
131,2388,2489,162
6447
131,2388,2489,162

Informações:

Publicações do PESC

Título
Theoretical Results On A Weightless Neural Classifier and Application To Computational Linguistics
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
26/6/2017
Resumo

WiSARD é um classificador n-upla, historicamente usado em tarefas de reconhecimento de padrões em imagens em preto e branco. Infelizmente, não era comum que este fosse usado em outras tarefas, devido à sua incapacidade de arcar com grandes volumes de dados por ser sensível ao conteudo aprendido. Recentemente, a técnica de bleaching foi concebida como uma melhoria à arquitetura do classificador n-upla, como um meio de coibir a sensibilidade da WiSARD. Desde então, houve um aumento na gama de aplicações construídas com este sistema de aprendizado. Pelo uso frequente de corpora bastante grandes, a etiquetação gramatical multilíngue encaixa-se neste grupo de aplicações. Esta tese aprimora o mWANN-Tagger, um etiquetador gramatical sem peso proposto em 2012. Este texto mostra que a pesquisa em etiquetação multilíngue com WiSARD foi intensificada através do uso de linguística quantitativa e que uma configuração de parâmetros universal foi encontrada para o mWANN-Tagger. Análises e experimentos com as bases da Universal Dependencies (UD) mostram que o mWANN-Tagger tem potencial para superar os etiquetadores do estado da arte dada uma melhor representação de palavra. Esta tese também almeja avaliar as vantagens do bleaching em relação ao modelo tradicional através do arcabouço teórico da teoria VC. As dimensões VC destes foram calculadas, atestando-se que um classificador n-upla, seja WiSARD ou com bleaching, que possua N memórias endereçadas por n-uplas binárias tem uma dimensão VC de exatamente N (2^n - 1) +1. Um paralelo foi então estabelecido entre ambos os modelos, onde deduziu-se que a técnica de bleaching é uma melhoria ao método n-upla que não causa prejuízos à sua capacidade de aprendizado.

Abstract

WiSARD is an n-tuple classifier, historically employed in pattern recognition tasks involving black-and-white images, like recognition handwritten characters. Unfortunately, it was not commonly used in other tasks, for its inability to handle large loads of data, as it was sensitive to the learned content. Recently, the bleaching technique was conceived as an enhancement to the n-tuple classifier architecture as a means to curb WiSARD sensitiveness. Since then, there has been an increase in the range of applications built with this learning system. Multilingual part-of-speech (POS) tagging is one of such applications, given its frequent use of large corpora. This thesis improves mWANN-Tagger, a multilingual weightless neural network POS-tagger proposed in 2012. The text herein presented shows that the research on multilingual POS-tagging with WiSARD was intensified through the use of quantitative linguistics and that a universal parameter configuration was found for mWANN-Tagger. Further analyses and experiments with Universal Dependencies (UD) treebanks show that mWANN-Tagger has potential to outperform state-of-the-art POS-taggers given a better word representation. This thesis also aims to assess the advantages of bleaching towards the traditional model through the theoretical framework of VC theory. The VC dimensions of both architectures were calculated, attesting that an n-tuple classifier, WiSARD or bleaching alike, which has N memory nodes addressed by binary n-tuples has VC dimension of exactly N (2^n - 1) + 1. A parallel was then drawn between both models, where it was deduced that the bleaching technique is an enhancement to the n-tuple method that does little to no harm to its learning capacity.

Arquivo
Topo