Interpretable Reinforcement Learning Via Evolutionary Decision Trees
Autores
7589 |
2489,3276
|
|
7590 |
2489,3276
|
Informações:
Publicações do PESC
Recentemente, algoritmos de Reinforcement Learning (RL) foram aplicados com sucesso em uma vasta gama de tarefas, desde direção autônoma a tratamentos médicos dinâmicos. No entanto, a maioria dos modelos bem-sucedidos neste campo são construídos com redes neurais profundas, e portanto possuem um baixo nível de interpretabilidade que limita suas aplicações no mundo real. Nesta tese, nós abordamos esse problema substituindo as redes neurais profundas por um modelo de aprendizado de máquina altamente interpretável: árvores de decisão. Primeiramente, nós conduzimos uma revisão exaustiva dos últimos 10 anos de pesquisa em árvores, preenchendo uma lacuna na literatura ao conectar linhas de pesquisa isoladas sob uma perspectiva única e determinar o estado-da-arte destes modelos. Segundamente, nós separamos os Algoritmos Evolutivos como a abordagem de otimização a ser utilizada, e propomos uma codificação matricial inovadora que reduz em até 20 vezes o custo computacional de evoluir árvores de decisão para problemas de classificação. Em seguida, nós partimos para o campo de Reinforcement Learning ao propormos um algoritmo capaz de evoluir, com sucesso, árvores de decisão para problemas de RL; este algoritmo é a peça-chave da nossa tese. Sua essência está no uso de técnicas de Imitation Learning para a inicialização do processo evolutivo, assim como no uso de um método de poda inovador chamado Reward Pruning, capaz de reduzir o tamanho das árvores sem comprometer seu desempenho. A abordagem como um todo foi testada em três benchmarks populares de RL, assim como numa tarefa de fertilização de colheita baseada em um problema do mundo real. Até onde sabemos, esta abordagem é a primeira a resolver o benchmark Lunar Lander mantendo tanto interpretabilidade quanto alto desempenho (90% de taxa de sucesso), além de ser a primeiro a resolver o benchmark Mountain Car com apenas 7 nós (aproximadamente metade do melhor resultado anteriormente reportado na literatura), e na tarefa de fertilização inspirada no mundo real, é a primeira a produzir resultados interpretáveis enquanto alcança o mesmo desempenho que redes neurais profundas. Analisamos as melhores soluções mais a fundo e demonstramos que não apenas elas são interpretáveis, como também são diversas, o que empodera o usuário final ao fornecer a ele a escolha de qual modelo melhor se encaixa nos seus critérios e requisitos próprios. De maneira geral, os resultados desta tese avançam o estado-da-arte de RL interpretável, abrindo caminho para o uso de RL em domínios onde confiança e segurança são preocupações cruciais.
Recently, Reinforcement Learning (RL) algorithms have been successfully applied to a wide range of tasks, from autonomous driving to dynamic medical treatments. However, most successful models in this domain are built using deep neural networks, which gives them a level of uninterpretability that limits their real-world applications. In this thesis, we address this problem by replacing the complex neural networks with an interpretable learning model: Decision Trees (DTs). First, we conduct a comprehensive survey of the last 10 years of DT research, filling a gap in the literature by determining the current state-of-the-art on these models and connecting their different lines of research under a unified perspective. Second, we decide upon Evolutionary Algorithms as the optimization approach to be used, and propose a novel matrix-based encoding for Evolutionary DTs that reduces the computational cost of their training on classification tasks by up to 20 times compared to the traditional encoding. Third, we move onto the Reinforcement Learning arena by proposing a framework capable of successfully evolving DTs for RL tasks, which serves as the centerpiece of this thesis. The key idea behind this framework is to warm-start the evolutionary process by employing Imitation Learning techniques (in particular, the DAgger algorithm) and a novel pruning method that we propose called Reward Pruning, which reduces tree size without compromising on performance. The overall approach is tested on three popular benchmarks environments from the OpenAI Gym library and on a crop fertilization task inspired by real-world constraints; to the best of our knowledge, this approach is the first to solve the Lunar Lander benchmark with both interpretability and high confidence (90% of success rate), the first to solve the Mountain Car benchmark with only 7 nodes, and on the real-world fertilization environment, it is the first to be able to achieve the same performance as the best deep neural networks while having the added bonus of interpretability. We further analyze the best solutions generated by our approach and demonstrate that they are not only interpretable, but also diverse, which empowers the end-user with the ability to choose the model that best suits their requirements. Overall, the results in this thesis push the state-of-the-art in Interpretable RL, facilitating the usage of RL in domains where trust and security are key concerns.