Uma Arquitetura para Agrupamento de Dados em Fluxo Contínuo Baseada em Redes Neurais sem Pesos
Autores
5190 |
131,2339
|
|
5191 |
131,2339
|
Informações:
Publicações do PESC
O agrupamento de dados em fluxo é um tema de pesquisa relativamente novo, o qual adiciona mais restrições ao problema de agrupamento clássico: os grupos são definidos num instante no tempo, considerando dados mais recentes uma maior influência na formação dos grupos que dados mais antigos. Existem outros desafios como processar os dados num ritmo mais veloz que aquele no qual eles chegam, e capturar pequenas mudanças durante a análise do fluxo de dados. StreamWiSARD, uma arquitetura para agrupamento de dados em fluxo contínuo apresentada nessa dissertação buscar atender a todos os requerimentos do problema ainda tendo um baixo consumo de memória devido ao pequeno número de microgrupos mantido durante seu funcionamento, enquanto a maioria das alternativas tenta gerenciar o maior número possível de microgrupos. Além disso, é mostrado um novo mapeamento útil para adaptar dados expressos em valores reais para serem introduzidos a classificadores baseados na similaridade binária das suas entradas. Os experimentos conduzidos mostram algumas propriedades interessantes consequentes do uso de discriminadores WiSARD como unidades básicas de sintetização de dados.
Stream data clustering is relatively new research theme, which adds more constraints to the classical clustering problem: the clusters are defined for an instant in time, considering more recent data a stronger influence in the clusters definition than older data. There are other challenges as to process data in a faster pace than this of its arrival, and to capture even small change events during the stream data analysis. StreamWiSARD, a stream data clustering system presented in this dissertation looks to fulfil all problem requirements while having a low memory footprint due to the small number of microclusters maintained during its execution, while the majority of other options try to always manage as much microclusters as possible. Besides this, it is shown a new mapping useful to adapt real-valued data to be input to classifiers which work based on binary similarity. The experiments conducted show some interisting properties consequent to the use of WiSARD discriminators as the basic data synthesizing unit.