Comparaison de méthodes évolutionnaires et d’apprentissage par renforcement sur des benchmarks de contrôle classique

By Olivier Sigaud on Wed, 2020-12-23 15:58

Les méthodes évolutionnaires et les méthodes d’apprentissage par renforcement constituent deux alternatives pour résoudre des problème de recherche d’une politique optimale sur des problèmes où les actions sont continues. L’objet de ce projet est de se livrer à une comparaison systématique des propriétés de ces deux approches dans des environnements classiques de faible dimension tels que CartPole, Pendulum, Mountain Car et éventuellement des labyrinthes classiques tels que Deceptive Maze ou Simple Maze.

En particulier, au sein des deux familles d’approches, on se focalisera sur les méthodes qui sont à la fois les plus élémentaires et les plus proches de l’autre famille, afin de faire transparaître un continuum entre ces deux familles. D’un côté, on étudiera la Cross-Entropy Method (CEM) et de l’autre la Reward Weighted Regression (RWR) qui toutes les deux considèrent comme objectif la somme des récompenses le long d’une trajectoire. On examinera aussi le fonctionnement de méthodes de différences temporelles élémentaires afin de bien comprendre la transition entre les méthodes de gradient sur les politiques et les méthodes acteur-critique.

Afin d’étudier les méthodes de regression, on sera amené à proposer à la main des politiques expertes sur des environnements tels que Pendulum.

Afin de mener des études en profondeur, on intégrera des outils de visualisation de la direction des gradients qui seront fournis à une base de code existante qui sera elle aussi fournie.

Ce projet faisant appel à de nombreuses notions nouvelles pour les étudiants, une formation initiale à l’apprentissage par renforcement profond et à des aspects méthodologiques sera assurée durant les premières semaines.

Encadrant:

Olivier Sigaud

Nombre d'étudiants:

Attribué:

Yes

Deprecated:

Master Informatique, parcours ANDROIDE

You are here

Comparaison de méthodes évolutionnaires et d’apprentissage par renforcement sur des benchmarks de contrôle classique

User login