PESC publications Desempenho e Economicidade de Modelos de Linguagem para Classificação de Toxicidade em Jogos

Authors:

Autores

id	Person role	Person	url
7464	Geraldo Bonorino Xexéo (Leader)	299,3236
7463	Paulo Roberto Xavier Junior	299,3236

Informations:

Pesc publication

3172

Title

Desempenho e Economicidade de Modelos de Linguagem para Classificação de Toxicidade em Jogos

Identification Number

Date

8/16/2024

tituloi

Resumo

A toxicidade em jogos online é praticamente onipresente atualmente, com aproximadamente 86% dos jogadores adultos tendo experienciado alguma forma de assédio em 2022. Diante desses desafios, 91% dos desenvolvedores de jogos veem a toxicidade como um problema crítico. O surgimento dos Grandes Modelos de Linguagem (LLMs), apresenta uma oportunidade para aprimorar a detecção e a classificação de toxicidade, dado suas sofisticadas capacidades de compreensão da linguagem natural.

Esta pesquisa investiga o uso de LLMs para classificação de toxicidade no contexto de um desenvolvedor de jogos, que enfrenta uma significativa toxicidade entre seus jogadores. Foi definida uma metodologia abrangente para selecionar LLMs adequados, desenvolvendo dezesseis prompts para análise em dez LLMs. Análises de desempenho, custo e impacto no negócio identificaram os modelos Llama-3-8B-Instruct e GPT-4o como os de melhor desempenho. Um modelo proposto de impacto no negócio destacou a sensibilidade da receita a classificações incorretas do modelo, enfatizando a importância das métricas de desempenho. O modelo final selecionado, Llama-3-8B-Instruct, foi avaliado para uso prático, mostrando competência em conversas claramente tóxicas, mas dificuldade em contextos mais sutis.

Abstract

The toxicity in online games is nearly ubiquitous today, with approximately 86% of adult gamers experiencing some form of harassment in 2022. Given these challenges, 91% of game developers view toxicity as a critical issue. The emergence of Large Language Models (LLMs) presents an opportunity to enhance the detection and classification of toxicity due to their sophisticated natural language understanding capabilities.

This research investigates the use of LLMs for toxicity classification in the context of a game developer facing significant toxicity among its players. A comprehensive methodology was defined to select suitable LLMs, developing sixteen prompts for analysis across ten LLMs. Performance, cost, and business impact analyses identified the Llama-3-8B-Instruct and GPT-4o models as top performers. A proposed business impact model highlighted the sensitivity of income to incorrect model classifications, emphasizing the importance of performance metrics. The final selected model, Llama-3-8B-Instruct, was evaluated for practical use, showing competence in clearly toxic conversations but difficulty in more nuanced contexts.

File

3172.pdf

url