Etude de l’apprentissage par renforcement profond sur Pendulum

Par Olivier Sigaud , 23 décembre, 2020

Les algorithmes d’apprentissage par renforcement profond à actions continues sont souvent appliqués en simulation à des problèmes de contrôle de grande taille tels que les benchmarks MuJoCo où il faut contrôler un “demi-guépard” (HalfCheetah), un serpent nageur (Swimmer), une “araignée” à 4 pattes (Ant) ou un humanoïde plus ou moins complet (Hopper, Walker, Humanoid)...

Pourtant, il y a encore beaucoup à apprendre de l’étude de benchmarks de contrôle classiques en plus petite dimension tels que CartPole, Pendulum ou MountainCar. L’objet de ce projet est de compléter la connaissance en se focalisant sur le benchmark Pendulum.

Des travaux précédents ont montré que des méthodes de gradient sur les politiques (Policy Gradient) ne parviennent pas à obtenir une performance satisfaisante sur ce benchmark, alors que des algorithmes d’apprentissage par renforcement profond de l’état de l’art (DDPG, SAC…) y parviennent. L’objectif plus précis du projet est d’étudier plus précisément quels sont les ingrédients critiques de ces algorithmes pour expliquer le gain de performance qu’ils obtiennent.

Pour atteindre cet objectif, la démarche consistera à lister tous les ingrédients qui distinguent ces algorithmes des algorithmes de Policy Gradient standard et à étudier systématiquement la performance de tous les algorithmes intermédiaires que l’on définit en débranchant un à un chacun de ces ingrédients (on appelle cela une “ablation study”).

En première intention, les ingrédients que l’on est susceptible de débrancher sont les suivants :
- random sampling dans le replay buffer versus rejouer les trajectoires
- la normalisation des entrées ou de la fonction de récompense
- les target networks
- TD versus Monte Carlo
- REINFORCE avec une baseline optimale donnée

Si cette étude aboutit rapidement, on pourra la prolonger de différentes manières, en particulier en étudiant l’impact du n-step return et établissant un diagramme de compromis biais-variance.

Ce projet faisant appel à de nombreuses notions nouvelles pour les étudiants, une formation initiale à l’apprentissage par renforcement profond et à des aspects méthodologiques sera assurée durant les premières semaines.

Encadrant
Olivier Sigaud
Nombre d'étudiants
2
Attribué
Oui
Obsolète
Non
Tags