Ir para o conteúdo
GovBR

Authors:

Autores

Person role Person
7593
2737,2489,3277
7592
2737,2489,3277
7591
2737,2489,3277

Informations:

Pesc publication

Title
Comparação Sistemática do Desempenho de Classificadores Binários Supervisionados
Research area
Artificial Intelligence
Publication type
Master's thesis
Identification Number
Date
5/21/2025
Resumo

Algoritmos de classificação, ou classificadores, categorizam dados em classes distintas, e cumprem um papel fundamental em aprendizado de máquina. Classificadores são usados em diversas áreas, para a detecção de spam e fraudes bancárias, o reconhecimento de objetos em imagens (como pessoas, animais e gestos) e até a detecção de células cancerígenas. Como a tarefa de classificação não é trivial, ou mesmo determinística, é necessária a implementação de heurísticas para realizar a tomada de decisão em casos ambíguos – e essa é a função dos algoritmos. Contudo, diante a uma ampla gama de opções, as diferenças pragmáticas entre os diversos classificadores não são sempre claras. Nesta dissertação, mostra-se que é possível agrupar certos classificadores binários supervisionados amplamente utilizados na literatura (SVM, GBDT, kNN, RF e NB) conforme sua resistência a dados com ruído e/ou desequilibrados, ou quanto a seu tempo de execução. Esses resultados indicam que, mesmo que haja grande similaridade no desempenho geral de algoritmos bem conhecidos, eles possuem diferenças de execução que podem ter um impacto significativo a depender do conjunto de dados sendo trabalhado. Assim, os resultados podem auxiliar na escolha por um classificador mais adequado.

Abstract

Classification algorithms, or classifiers, categorize data into distinct classes, and play a fundamental role in machine learning. Classifiers are used in various areas, from detecting spam and financial fraud, to recognizing objects in images (such as people, animals and gestures) and even detecting cancer cells. Because the classification task isn't trivial, or even deterministic, implementing heuristics to aid in the decision-making process for ambiguous cases is necessary – and that's the algorithms' function. However, faced with a plethora of options, pragmatic differences between the many classifiers are not always clear. In this dissertation, we show that it is possible to group certain supervised binary classifiers widely used in the literature (SVM, GBDT, kNN, RF and NB) according to their resistance to noise and/or unbalanced data, or to their running time. These results indicate that, even if there is a great deal of similarity in the general performance of well known algorithms, they have differences in execution that may have a significant impact depending on the dataset being used. Therefore, the results may assist in the choice for a more adequate classifier.

Go to top
Conteúdo acessível em Libras usando o VLibras Widget com opções dos Avatares Ícaro, Hosana ou Guga. Conteúdo acessível em Libras usando o VLibras Widget com opções dos Avatares Ícaro, Hosana ou Guga.