Apprentissage par renforcement profond : analyse détaillée de SVPG

Résumé :

L'algorithme Stein Variational Policy Gradient (SVPG) est un algorithme à mi-chemin entre des approches évolutionnaires et des algorithmes d’apprentissage par renforcement. Un code en python est disponible sur github. L’objectif de ce projet est de prendre en main ce code et d’analyser de façon détaillée diverses propriétés de cet algorithme, notamment par des comparaisons avec les algorithmes proches.

Sujet développé :

L’apprentissage par renforcement profond (deep reinforcement learning, ou deep RL) est un domaine de recherche extrêmement actif rendu populaire par les résultats récents sur le Go, les jeux ATARI ou diverses expériences de robotique. De nombreux algorithmes sont proposés dans la littérature, mais pas toujours analysés en profondeur par les chercheurs qui les rendent publics.

L’objet de ce projet est d’étudier en détail l’algorithme Stein Variational Policy Gradient (SVPG). On commencera par s’efforcer de reproduire les résultats de l’article original, référencé ci-dessous, puis on développera des outils de visualisation pour aller plus loin dans les analyses, et on réalisera des comparaisons avec des algorithmes proches qui n’ont pas été inclus dans l’étude initiale et/ou dans des environnements spécifiques. Les algorithmes et environnements utiles pour la comparaison seront fournis, on s’appuiera sur la bibliothèque Stable Baselines 3.

Ce projet faisant appel à de nombreuses notions nouvelles pour les étudiants, une formation initiale à l’apprentissage par renforcement profond et à des aspects méthodologiques sera assurée durant les premières semaines, à l’aide de vidéos de cours, TME sous Google colab et sessions avec le tuteur.

Une forte motivation pour le machine learning, des bonnes bases en programmation python et une certaine familiarité avec github sont des prérequis.

Références

L’article Stein Variational Policy Gradient :
https://arxiv.org/pdf/1704.02399.pdf

Stable Baselines 3 :
https://github.com/DLR-RM/stable-baselines3

Un code de SVPG par les auteurs :
https://github.com/largelymfs/svpg_REINFORCE

Encadrant: 
Olivier Sigaud
Nombre d'étudiants: 
4
Attribué: 
No
Deprecated: 
No
Etudiants affectés: 
Julien Canitrot, Jules Dubreuil, Nikola Kosta, Tan Khiem Huynh

User login