Um Método Geral para Tornar Algoritmos Fuzzy de Aprendizado de Máquinas Escaláveis para Bases de Dados Arbitrariamente Grandes
Autores
4314 |
250,1928
|
|
4315 |
250,1928
|
Informações:
Publicações do PESC
Domingos e Hulten desenvolveram uma metodologia genérica para tornar algoritmos de aprendizado de máquina escaláveis e aplicaram essa metodologia ao algoritmo K-Means. O objetivo deste trabalho é adaptá-lo para tornar algoritmos de aprendizado de máquina fuzzy escaláveis para bases de dados arbitrariamente grandes. Como cada exemplo de um algoritmo de aprendizado fuzzy está associado com cada classe/cluster através da matriz de pertinência, nós tivemos que alterar todo cálculo do erro do aprendizado usando nossas definições de exemplos fuzzy sampling false positives e fuzzy sampling false negatives. Então, nós aplicamos esse método para o Fuzzy C-Means (FCM), desenvolvendo o Very Fast Fuzzy C-Means (VFFCM). De forma similar ao Very Fast K-Means (VFKM) de Domingos e Hulten, VFFCM utiliza menos exemplos (determinado pelo teoricamente limite de Hoeffding) a cada passo garantindo que o modelo resultante não difira significantemente daquele que seria produzido passando todos os dados pelo FCM. VFFCM é comparado com o FCM e o VFKM, demonstrando, respectivamente, seu speedup e melhor qualidade de agrupamento (usando para comparação os verdadeiros clusters da base de dados).
Domingos and Hulten developed a general framework to scale up machine learning algorithms and applied it to K-Means. The objetive of this work is adapt it to scale up fuzzy algorithms to arbitrarily large databases. Since each example in fuzzy learners is associated with every class/cluster through the membership matrix, we have to change the entire calculation of the learner’s error using our definitions of fuzzy sampling false positives and fuzzy sampling false negatives examples. Then, we apply this method to Fuzzy C-Means (FCM), developing the Very Fast Fuzzy C-Means (VFFCM). Similarly to Domingos and Hulten Very Fast K-Means (VFKM), VFFCM uses less examples (determined theoretically by Hoeffding bound) in each step still guaranteeing that the resulting model does not significantly differ from the one that would be created passing the entire data through the FCM. VFFCM is compared to FCM and VFKM showing its speedup and better quality clustering (using the true database clusters), respectively.