PESC publications Reinforcement Learning with Weightless Neural Networks

Authors:

Autores

id	Person role	Person
7097	Rafael Fontella Katopodis	3131,162,131
7098	Priscila Machado Vieira Lima (Leader)	3131,162,131
7099	Felipe Maia Galvão França (Co-supervisor)	3131,162,131

Informations:

Pesc publication

3029

Title

Reinforcement Learning with Weightless Neural Networks

Identification Number

Date

1/17/2022

tituloi

Resumo

Pilotagem de veículos, alocação de recursos, controle de plantas industriais: esses são apenas alguns exemplos dentre os muitos problemas interessantes que exigem tomar decisões ao longo do tempo. Dados os impactos no mundo real e custos dessas tarefas, o estudo de métodos para automatizá-las é de grande importância. Aprendizado por reforço (RL) é o ramo de aprendizado de máquina que lida com tomada de decisão sequencial. Resultados impressionantes foram vistos em anos recentes devido a RL, especialmente quando fazendo uso de modelos de aprendizado profundo. Comparado a essas redes neurais, o uso de modelos de aprendizado alternativos não recebeu a mesma atenção em trabalhos recentes. A adoção de redes neurais sem peso, em particular, é pouco explorada. Não obstante, o estudo de seu uso nesse contexto é de interesse, já que pode prover uma ferramenta a mais para a abordagem de problemas de tomada de decisão sequencial e permitir trade-offs mais favoráveis sejam feitos em instâncias específicas. Fazer uso de redes de n-tuplas em RL, no entanto, não é uma questão de simplesmente acoplar arquiteturas existentes a métodos de RL, visto que essas têm suposições subjacentes incompatíveis com as dificuldades impostas por tomada de decisão sequencial. Para conciliar essa classe de redes com RL, duas novas arquiteturas são propostas, uma fazendo uso de um mecanismo simples semelhante ao esquecimento, e outra tomando inspiração com online com kernels. Com essas duas variantes, redes sem pesos podem ser empregadas em métodos baseados em aproximação de função valor e política. Os modelos propostos são avaliados em quatro tarefas de benchmark, cuidadosamente analisando os efeitos de seus hiperparâmetros e as comparando com redes feedforward, com resultados que mostram serem capazes de alcançar performances competitivas.

Abstract

Driving vehicles, allocating resources, controlling industrial plants: these are just a few examples of the many interesting problems that require making decisions over time. Given the real-world impacts and costs of such tasks, the study of methods to automate these is of great importance. Reinforcement learning (RL) is the branch of machine learning that deals with sequential decision-making. Impressive results have been seen in recent years due to RL, especially when making use of deep learning models. Compared to these neural networks, the use of alternative learning models has not been as much of a focus in recent research. The adoption of weightless neural networks, in particular, is underexplored. Nevertheless, the study of their use in this context is worthwhile, as it can provide one more tool in tackling decision-making problems and possibly allows more favorable trade-offs to be made for specific instances. Making use of n-tuple nets in RL, however, is not a matter of simply plugging existing architectures in RL methods, as these are based on assumptions incompatible with the issues imposed by sequential decision-making. To reconcile this class of networks with RL, two novel architectures are proposed, one leveraging a simple mechanism akin to forgetting, and the other drawing inspiration from online learning with kernels. With these two variants, weightless nets can be employed both in action-value and policy search methods. The proposed models are evaluated in four benchmarks tasks, thoroughly assessing the effects of their hyperparameters and comparing them to feedforward networks, with results showing that they can attain competitive performance.

File

3029.pdf

url