Autores

6348
312,2878
6349
312,2878

Informações:

Publicações do PESC

Título
Funções de Ativação Hiperbólicas em Redes Neurais
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
9/3/2017
Resumo

Neste trabalho apresentamos uma versão escalada das funções de ativação hiperbólica e bi-hiperbólica para redes neurais, alterando o intervalo de atuação para atingir uma melhor capacidade de convergência. Experimentos no data set MNIST mostram que a versão escalada da função de ativação hiperbólica alcançou um erro até 97,12% menor que a original, enquanto a versão escalada da função bi-hiperbólica atingiu até 10,24% de melhora relativa quando comparada à original.

Comparando o desempenho das tradicionais funções logística, tangente hiperbólica e ReLU com a hiperbólica escalada, podemos atingir melhoras no erro de 97,44%, 17,63%, 34,41%, enquanto no caso da bi-hiperbólica escalada, melhoras de 97,49%, 20,97% e 53,44%. Apesar da melhora expressiva, foi necessário uma busca exaustiva para escolha dos parâmetros adequados. Desta forma, utilizamos uma metodologia para ajuste automático dos parâmetros através do algoritmo de backpropagation, com o qual atingimos melhoras de 96,44%, 12,49% e 12,59% para a versão simétrica da bi-hiperbólica escalada, e de 96,58%, 11,36% e 17,06% para a versão assimétrica, dispensando a necessidade de uma busca exaustiva. Também mostramos que o uso da função bi-hiperbólica adaptativa possui convergência acelerada em circunstâncias onde há limitação de tempo e poder computacional. Uma das formas mais convencionais de suavizar a função ReLU é através da função Softplus, que sofre todavia do problema de gradiente minguante.

Assim, buscando atenuar esta dificuldade, propomos uma alternativa de suavização para a função ReLU utilizando-se da técnica de penalização hiperbólica, a qual denominamos função suavização hiperbólica da ReLU, ou SH-ReLU. Nossos experimentos mostram que a SH-ReLU, unida à referida metodologia de ajuste dos parâmetros, foi capaz de superar a medida de erro da ReLU em 18,62%, e 36,67% quando comparada à Softplus.

Abstract

In this work we present a scaled version of hyperbolic and bi-hyperbolic activation functions for neural networks, where the activation interval was modified in order to reach a better convergence. Our experiments on MNIST data set shows that the scaled version of the hyperbolic activation function achieved an error up to 97.12% better than the original, while the scaled version of the bi-hyperbolic function reached up to 10.24% relative improvement when compared to the original.

Comparing the performance of the traditional activation functions logistic, hyperbolic tangent and ReLU to our scaled hyperbolic, we achieved 97.44%, 17.63%, 34.41% of improvement in error, and improvements of 97.49%, 20.97% and 53.44% in the case of scaled bi-hyperbolic. Despite of the significant improvement, an exhaustive search was required to choose the appropriate parameters. Thus, we use a methodology for automatic parameter adjustment through the backpropagation algorithm during training. Using this methodology, we achieved improvements of 96.44%, 12.49% and 12.59% for the symmetric version of scaled bi-hyperbolic function, and 96.58%, 11.36% and 17.06% for the asymmetric one, without need for an exhaustive search. We also showed that the bi-hyperbolic adaptative function have a greate convergence in circumstances where there is a limitation of time and computational power.

One of more usual smoothing of ReLU activation function is the Softplus function, witch su er from vanishing gradient problem. Thus, in order to reduce this problem, we proposed an alternate smoothing for ReLU function through hyperbolic penalty method, named Hyperbolic smoothing ReLU, or HS-ReLU. Our experiments shows that HS-ReLU, joint to refered parameter adjustment metodology, outperformed ReLU in 18.62% and Softplus in 36.67%.

Arquivo
Topo