Desempenho de Modelos de Linguagem para Classificação de Fake News
Autores
|
7596 |
3279,299
|
|
|
7597 |
3279,299
|
Informações:
Publicações do PESC
Esta dissertação investiga a relação de custo-benefício de grandes modelos de linguagem (LLMs) na tarefa de detecção de fake news, no contexto do projeto interdisciplinar “Inteligência Artificial para Detecção Precoce de Fake News”. Inicialmente concebido para analisar dados em tempo real da plataforma Twitter (atualmente X), o projeto foi redirecionado para o uso de bases de dados pré-existentes devido a mudanças na política de acesso da plataforma. O estudo avalia diversos LLMs disponíveis na AWS, aplicando-os em múltiplas bases de notícias falsas e explorando diferentes estratégias de prompt engineering e técnicas de ajuste fino.
Três questões principais norteiam esta pesquisa: (i) LLMs são capazes de identificar fake news de forma confiável? (ii) Como seu desempenho se compara aos métodos tradicionais do estado da arte? (iii) Qual é a relação entre o tamanho do modelo, a acurácia e o custo operacional? Para apoiar essa análise, propõe-se uma nova métrica chamada PoC-score (Performance over Cost), que quantifica a eficiência de cada modelo relacionando seu F1-score ao custo por hora de operação.
Os resultados mostram que os LLMs apresentam bom desempenho em conjuntos de dados com conteúdo mais rico e estruturado, como notícias sobre COVID-19, mas enfrentam limitações em bases mais ambíguas ou ruidosas, como LIAR e PolitiFact. Embora modelos maiores tendam a obter acurácia ligeiramente superior, seu custo cresce de forma desproporcional, tornando modelos menores com ajuste fino — como o Gemma-7B — mais atrativos em cenários reais. Em suma, os experimentos demonstram que os LLMs são ferramentas promissoras para a detecção de fake news, mas sua adoção deve considerar as características do domínio, as restrições computacionais e os objetivos da aplicação.
This dissertation investigates the cost-effectiveness of large language models (LLMs) in the task of fake news detection, within the scope of the interdisciplinary project “Artificial Intelligence for Early Detection of Fake News.” Initially designed to analyze real-time data from Twitter (now X), the project was redirected to use pre-existing datasets due to changes in the platform's access policy. The study evaluates various LLMs available on AWS across multiple fake news datasets, exploring their performance under different prompting strategies and fine-tuning techniques.
Three key research questions guide this work: (i) Are LLMs capable of reliably identifying fake news? (ii) How do their performances compare to traditional state-of-the-art methods? (iii) What is the trade-off between model size, accuracy, and operational cost? To support this evaluation, a novel metric called PoC-score (Performance over Cost) is proposed, quantifying the efficiency of each model by relating its F1-score to its cost per hour.
Results show that LLMs perform well on datasets with richer and more structured content, such as COVID-related news, but face limitations on more ambiguous or noisy datasets like LIAR or PolitiFact. While larger models tend to achieve slightly higher accuracy, their cost escalates disproportionately, making smaller models with fine-tuning strategies—such as Gemma-7B—more attractive in real-world deployments. Ultimately, the findings suggest that LLMs are promising tools for fake news detection, but their adoption should consider domain characteristics, computational constraints, and application goals.



