Improving The Learning Performance of The Restricted Boltzmann Machine Through Optimal Connectivity and Network Gradients
Authors:
Autores
Person role | Person | |
---|---|---|
7114 |
3135,753
|
|
7115 |
3135,753
|
Informations:
Pesc publication
A despeito das técnicas de Busca por Arquitetura Neural (NAS) e de Poda de Redes terem sido recentemente redescobertas como estratégias poderosas para a criação de redes neurais mais eficientes e com menos parâmetros, o foco tem sido em melhorar modelos de redes neurais profundas, com milhões de parâmetros. Entretanto, a conectividade da rede também tem papel fundamental no desempenho do aprendizado de redes rasas, como o modelo da Máquina de Boltzmann Restrita (RBM). Este trabalho apresenta um estudo do espaço de conectividade tal como ele afeta o aprendizado da RBM, além de propor um método para encontrar padrões de conectividade ótimos: o Gradiente de Conectividade da Rede (NCG). O NCG é baseado na ideia de gradientes da rede: ele computa o gradiente de cada conexão em potencial, dada a conectividade atual, e usa esse gradiente para atualizar o parâmetro, contínuo, da força da conexão, que por sua vez é usado para atualizar a conectividade em si. Dessa forma, o aprendizado dos parâmetros tradicionais da RBM e das conexões é realizado concomitantemente, mesmo que com taxas de aprendizados diferentes, e sem alteração na função objetivo do modelo. O método é aplicado aos dados BAS e MNIST, gerando modelos melhores de RBMs para as tarefas de geração de amostras e classificação de dados. Ademais, a rede completamente conectada tem desempenho superado tanto por padrões criados manualmente quanto pelo NCG para ambos os conjuntos de dados, ilustrando a importância de projetarmos padrões de conectividade que levem a modelos de maior acurácia até para redes neurais simples de duas camadas.
While Network Architecture Search (NAS) and Network Pruning have recently re-emerged as powerful techniques to design more effective networks with less parameters, their focus has been on improving deep neural network models with millions of parameters. However, network connectivity also plays a significant role on the learning performance of shallow two-layer networks, such as the classic Restricted Boltzmann Machine (RBM). This work presents a comprehensive study of the connectivity space on the learning performance of RBMs, as well as a method to find optimal connectivity patterns for them: Network Connectivity Gradient (NCG). NCG is based on the idea of network gradients: it computes the gradient of every possible connection, given a specific connection pattern, and uses the gradient to drive a continuous connection strength parameter that in turn is used to determine the connection pattern. Thus, learning RBM parameters and learning network connections is truly jointly performed, albeit using different learning rates, and with no changes to the objective function of the model. The method is employed on the BAS and MNIST datasets showing that better RBM models are found for the benchmark tasks of sample generation and input classification. Moreover, the fully connected network is outperformed both by manually designed connectivity patterns and NCG for the considered datasets, indicating the importance of designing more effective connectivity patterns even for simple two-layer neural networks.