Authors:

Autores

Person role Person
6926
3085,753
6927
3085,753

Informations:

Pesc publication

Title
Avaliação em Larga Escala de Modelos Clássicos e Modernos para Previsão de Demanda em Comércio Eletrônico
Research area
Computer Networks
Publication type
Master's thesis
Identification Number
Date
10/16/2020
Resumo

Previsões realizadas para o planejamento de demanda futura são cruciais para se ter um inventário disponível no lugar certo e no momento certo. Neste trabalho a previsão de demanda em larga escala, fruto de uma colaboração com a empresa de plataforma de comércio unificada VTEX, foi abordada através de técnicas clássicas e modernas de previsão de demanda na literatura. A partir de dados reais, séries temporais em diferentes escalas de tempo (dia, semana e mês) e diferentes segmentos (produto, categoria e conta) foram construídas e analisadas. O grande volume de dados trouxe diversos desafios computacionais: desde o tratamento dos dados brutos para geração das séries temporais, sendo necessária a utilização do motor de processamento distribuído Apache Spark; até o treinamento dos parâmetros dos modelos. Neste trabalho um pipeline para o ETL dos dados brutos foi desenvolvido na plataforma de serviços de computação em nuvem (AWS) utilizando tecnologias para processamento de dados em larga escala, assim como a criação de um framework para a comparação dos modelos. A caracterização das séries temporais mostrou uma grande diversidade mesmo em séries de uma mesma escala de tempo e segmento, com comportamento de cauda pesada em algumas estatísticas. Mostramos que a utilização de diferentes modelos para cada série temporal obteve melhores desempenhos, devido as diferentes características entre as séries. Se nos restringirmos a um único modelo para todas as séries temporais, o modelo baseado em uma rede neural probabilística recorrente e autoregressiva (DeepAR) obteve o melhor desempenho geral. A estratégia utilizando uma combinação de modelos obteve ganhos MAPE de até 80.6% sobre o melhor modelo no segmento de contas e escala de tempo mensal.

Abstract

Forecasting demand is crucial for having the right inventory available at the right time at the right place. In this work a large scale demand forecasting problem, result of an industry collaboration with the unified commerce platform VTEX, was approached through classical and modern techniques of demand forecasting in the literature. From real data, time series in different timescales (day, week, and month) and different segments (product, category, and account) were built and analyzed. The large volume of data brought several computational challenges: from processing the raw data to build the time series, requiring a distributed data processing engine, Apache Spark; to training the model parameters. A pipeline for the ETL of raw data was developed on the cloud computing services platform (AWS) using technologies for large-scale data processing, as well as developing a framework for the comparison of models. The characterization of time series exhibited a great diversity even in series of the same timescale and segment, with heavy tail behavior in some statistics. We show that the use of different models for each time series achieved better performances, due to the different characteristics between the series. If we restrict ourselves to a single model for all time series, the model based on a recurrent and autoregressive probabilistic neural network (DeepAR) achieved the best overall performance. The strategy using a combination of models achieved MAPE gains up to 80.6% over the best model in the segment of accounts and monthly timescale.

JSN_TPLFW_GOTO_TOP