Visualisation du paysage de valeur pour mieux comprendre l’apprentissage par renforcement

Un projet P-Androide 2019-2020 a consisté à mettre au point des outils de visualisation du paysage de valeur et des trajectoires de descente de gradient pour mieux comprendre la dynamique des algorithmes d’apprentissage par renforcement. Ces outils ont été appliqués à l’environnement de contrôle classique Swimmer et en utilisant l’algorithme Twin Delayed Deterministic Gradient (TD3).

L’objet de ce projet est à la fois d’enrichir les outils et de mieux démontrer leur utilité dans le cadre d’une étude à la fois plus précise et plus large.

En particulier, toujours sur l’environnement Swimmer, on étudiera l’algorithme Soft Actor Critic (SAC) avec et sans la prise en compte d’un terme de régularisation de l’entropie, afin d’examiner en détail l’effet de ce terme. On procédera aussi à des comparaisons des algorithmes SAC, TD3 et la Cross-Entropy Method (CEM), et on élargira à d’autres environnements tels que Half-Cheetah ou Hopper.

L’objectif sera de mener cette étude à un niveau de maturité susceptible de donner lieu à une publication.

Ce projet faisant appel à de nombreuses notions nouvelles pour les étudiants, une formation initiale à l’apprentissage par renforcement profond et à des aspects méthodologiques sera assurée durant les premières semaines.

Encadrant: 
Olivier Sigaud
Nombre d'étudiants: 
3
Attribué: 
Yes
Deprecated: 
No

User login