Projets

Les propositions de projets de M1. Vous devrez faire votre choix (en contactant directement les encadrants) pour le 26 Janvier.
Attention les projets s'afficent sur plusieurs pages!

Comparaison de solveurs de Processus de Décision Markoviens

Le but de ce projet est de comparer des solveurs de Processus de Décision Markoviens. Il existe 2 grandes manières de résoudre un processus de Décision Markovien soit par de la programmation linéaire soit par de la programmation dynamique. Nous voudrions comparer d'une part la résolution par de la programmation linéaire à l'aide d'un solveur classique du domaine (soit gurobi soit cplex) et comparer ensuite des solveurs qui utilisent de la programmation dynamique comme MDP toolbox et marmoteMDP.

Algorithme Branch and Bound pour la résolution de diagramme d'influence

Les diagrammes d'influence sont des extensions des arbres de décision permettant la modélisation et la résolution de problème de décision. Ils se situent donc entre les arbres de décision, les processus de décision Markoviens et les réseaux bayésiens. Ce cadre de modélisation permet d'expliciter des tâches décisionnels très complexes et difficiles à résoudre.

Apprentissage et généralisation sur une tâche de navigation d'un robot à roues

Les algorithms d'apprentissage par renforcement visent à trouver une politique permettant de déterminer l'action à appliquer dans un état donné pour maximiser une récompense sur un certain horizon. La robotique cumule plusieurs défis pour ces algorithmes. Les espaces d'états comme les espace d'action sont continus, les récompenses sont rares, les fonctions de transition peuvent être bruitées, etc. Une solution à ces défis consiste à définir des politiques paramétrées et à explorer l'espace de ces paramètres en testant les politiques correspondantes et en mesurant la récompense obtenue.

Développement d'environnements Pybullet Gym pour l'évaluation de politiques de perception active

En robotique, la perception active désigne de manière générale tout processus visant à améliorer la qualité du flux de données entrant dont la tâche en cours dépend. Par exemple, il peut servir en vision par ordinateur à guider la recherche de correspondances entre points d'intérêt dans des images afin d'estimer l'état de l'agent et de l'environnement [1], ou à éviter les occlusions afin de conserver un objet d'intérêt dans le champ de vision [2].

Une extension de logic modal playground

Le site Logic Modal Playground (https://rkirsling.github.io/modallogic/) offre une interface graphique intuitive (javascript avec D3/MathJax) permettant de spécifier des modèles, et de vérifier des formules de logique modale.
Toutefois, le site reste limité, en particulier par le fait qu'il n'est pas possible de définir de modèles mutli-agents. On propose donc dans ce projet d'étendre ses fonctionnalités, en permettant:
* de spécifier plusieurs relations (multi-agents);

Visualisation du paysage de valeur pour mieux comprendre l’apprentissage par renforcement

Un projet P-Androide 2019-2020 a consisté à mettre au point des outils de visualisation du paysage de valeur et des trajectoires de descente de gradient pour mieux comprendre la dynamique des algorithmes d’apprentissage par renforcement. Ces outils ont été appliqués à l’environnement de contrôle classique Swimmer et en utilisant l’algorithme Twin Delayed Deterministic Gradient (TD3).

L’objet de ce projet est à la fois d’enrichir les outils et de mieux démontrer leur utilité dans le cadre d’une étude à la fois plus précise et plus large.

Comparaison de méthodes évolutionnaires et d’apprentissage par renforcement sur des benchmarks de contrôle classique

Les méthodes évolutionnaires et les méthodes d’apprentissage par renforcement constituent deux alternatives pour résoudre des problème de recherche d’une politique optimale sur des problèmes où les actions sont continues. L’objet de ce projet est de se livrer à une comparaison systématique des propriétés de ces deux approches dans des environnements classiques de faible dimension tels que CartPole, Pendulum, Mountain Car et éventuellement des labyrinthes classiques tels que Deceptive Maze ou Simple Maze.

Etude de l’apprentissage par renforcement profond sur Pendulum

Les algorithmes d’apprentissage par renforcement profond à actions continues sont souvent appliqués en simulation à des problèmes de contrôle de grande taille tels que les benchmarks MuJoCo où il faut contrôler un “demi-guépard” (HalfCheetah), un serpent nageur (Swimmer), une “araignée” à 4 pattes (Ant) ou un humanoïde plus ou moins complet (Hopper, Walker, Humanoid)...

Pages

User login