Environnements d’évaluation élémentaires pour l’apprentissage par renforcement profond

L’apprentissage par renforcement profond (deep reinforcement learning, ou deep RL) est un domaine de recherche extrêmement actif. De nombreux algorithmes sont proposés dans la littérature, mais pas toujours analysés en profondeur par les chercheurs qui les rendent publics. En particulier, les chercheurs évaluent généralement leurs algorithmes sur des benchmarks faciles à mettre en œuvre, mais dont le comportement est difficile à analyser (par exemple les simulations avec mujoco sous openAI gym).

L’objet de ce projet est de fournir une base de code flexible en python pour produire un nouvel ensemble de benchmarks beaucoup plus simples à analyser. En pratique, l’environnement de départ sera un simple hyper-rectangle dans lequel un agent peut se déplacer continûment jusqu’à atteindre une borne du domaine. Il devra être facile de produire des variantes de ces environnements d’évaluation (par exemple ajouter des obstacles, des champs de force, contraindre les positions initiales et récompensées, etc.). L’interface de ces environnements devra être compatible avec celle d’openAI gym.

Dans un second temps, selon la motivation du ou des étudiants, ils pourront tirer parti des propriétés de ces benchmarks pour analyser finement des algorithmes d’apprentissage par renforcement profond de la littérature.

Pour les étudiants qui seront choisis, le principal bénéfice de ce projet sera de se familiariser avec les concepts et outils du deep RL, qui jouent un rôle significatif dans les progrès actuels de l’Intelligence Artificielle.

Réaliser ce projet supposera peut-être une certaine capacité d’auto-formation au deep RL. Des supports de cours en vidéo et des TME seront fournis pour aider les étudiants à acquérir les concepts nécessaires.

Par ailleurs, des bonnes bases en programmation python et une certaine familiarité avec github sont des prérequis.

Références :

OpenAI gym : https://gym.openai.com/
Mujoco : http://www.mujoco.org/

Encadrant: 
Olivier Sigaud
Nombre d'étudiants: 
2
Attribué: 
Yes
Deprecated: 
No

User login