Authors:

Autores

Person role Person
7180
299,3070
7179
299,3070

Informations:

Pesc publication

Title
Estratégias para Detecção Precoce de Predadores Sexuais em Conversas Realizadas na Internet
Research area
Data and Knowledge Engineering
Publication type
Master's thesis
Identification Number
Date
9/2/2022
Resumo

Crianças e adolescentes estão expostas a riscos na internet. Predadores sexuais podem entrar em contato com suas vítimas através de chats em redes sociais e jogos online. Partindo da premissa que predadores sexuais precisam manter um vínculo com suas vítimas antes do encontro presencial, esta dissertação objetiva detectar precocemente predadores sexuais em conversas virtuais entre duas pessoas através do desenvolvimento de três estratégias distintas utilizando algoritmos de classificação de textos para auxiliar a reduzir o número de casos de abuso sexual infantil. Como conjunto de dados é utilizada a base do PAN 2012 e são utilizados algoritmos de classificação de textos como Naive Bayes, KNN, Floresta Aleatória, SVM, Rede Neural MLP e BERT. Para cada estratégia foram realizados experimentos sem balanceamento dos dados e utilizando técnicas de undersampling, que obtiveram resultados superiores ao estado da arte. A primeira estratégia obteve melhores resultados que as demais, atingindo F0.5=85,96% já para as primeiras 10 mensagens para o experimento sem balanceamento dos dados e F0.5=99,89% para as primeiras 10 mensagens com o experimento com técnicas de undersampling.

Abstract

Children and teenagers are exposed to risks on the internet. Sexual predators can contact their victims through social media chats and online games. Starting from the premise that sexual predators need to maintain a bond with their victims before the face-to-face meeting, this dissertation aims to early detect sexual predators in online conversations between two people through the development of three distinct strategies using text classification algorithms to help reduce the number of cases of child sexual abuse. The 2012 PAN base is used as a dataset and text classification algorithms such as Naive Bayes, KNN, Random Forest, SVM, MLP Neural Network and BERT are used. For each strategy, experiments were performed without data balancing and using undersampling techniques, which obtained better results than the state of the art. The first strategy obtained better results than the others, reaching F0.5=85.96% for the first 10 messages for the experiment without data balancing and F0.5=99.89% for the first 10 messages with the experiment with undersampling techniques.

JSN_TPLFW_GOTO_TOP