Projets | Algorithmes, Intelligence Artificielle, Interactions et Décision

Les propositions de projets de M1. Vous devrez faire votre choix (en contactant directement les encadrants) pour le 26 Janvier.
Attention les projets s'affichent sur plusieurs pages!

Par ai2d , 5 janvier, 2021

Stabilité de réseaux dynamiques de croyances

Ce projet consiste en premier lieu à implémenter de façon efficace et tester un algorithme d'étude de stabilité dans un réseau d'agent évoluant sur le modèle des "jeux de révision de croyance". Les jeux de révison de croyance sont un formalisme pour représenter des mécanismes d'influences entre agents.

Par Emmanuel Hyon , 4 janvier, 2021

Comparaison de solveurs de Processus de Décision Markoviens

Le but de ce projet est de comparer des solveurs de Processus de Décision Markoviens. Il existe 2 grandes manières de résoudre un processus de Décision Markovien soit par de la programmation linéaire soit par de la programmation dynamique. Nous voudrions comparer d'une part la résolution par de la programmation linéaire à l'aide d'un solveur classique du domaine (soit gurobi soit cplex) et comparer ensuite des solveurs qui utilisent de la programmation dynamique comme MDP toolbox et marmoteMDP.

Par Pierre-Henri W… , 4 janvier, 2021

Algorithme Branch and Bound pour la résolution de diagramme d'influence

Les diagrammes d'influence sont des extensions des arbres de décision permettant la modélisation et la résolution de problème de décision. Ils se situent donc entre les arbres de décision, les processus de décision Markoviens et les réseaux bayésiens. Ce cadre de modélisation permet d'expliciter des tâches décisionnels très complexes et difficiles à résoudre.

Par Pierre-Henri W… , 4 janvier, 2021

Infrastucture de comparaison d'implémentations

Il est souvent difficile de comparer des implémentations différentes d'algorithmes avancés car elles impliquent une grande variété dans les formats d'entrée et de sortie, les conditions d'utilisation, et même les langages de programmation utilisés, etc.

Par Stéphane Doncieux , 3 janvier, 2021

Apprentissage et généralisation sur une tâche de navigation d'un robot à roues

Les algorithms d'apprentissage par renforcement visent à trouver une politique permettant de déterminer l'action à appliquer dans un état donné pour maximiser une récompense sur un certain horizon. La robotique cumule plusieurs défis pour ces algorithmes. Les espaces d'états comme les espace d'action sont continus, les récompenses sont rares, les fonctions de transition peuvent être bruitées, etc.

Par Stéphane Doncieux , 3 janvier, 2021

Développement d'environnements Pybullet Gym pour l'évaluation de politiques de perception active

En robotique, la perception active désigne de manière générale tout processus visant à améliorer la qualité du flux de données entrant dont la tâche en cours dépend. Par exemple, il peut servir en vision par ordinateur à guider la recherche de correspondances entre points d'intérêt dans des images afin d'estimer l'état de l'agent et de l'environnement [1], ou à éviter les occlusions afin de conserver un objet d'intérêt dans le champ de vision [2].

Par ai2d , 3 janvier, 2021

Une extension de logic modal playground

Le site Logic Modal Playground (https://rkirsling.github.io/modallogic/) offre une interface graphique intuitive (javascript avec D3/MathJax) permettant de spécifier des modèles, et de vérifier des formules de logique modale.
Toutefois, le site reste limité, en particulier par le fait qu'il n'est pas possible de définir de modèles mutli-agents. On propose donc dans ce projet d'étendre ses fonctionnalités, en permettant:
* de spécifier plusieurs relations (multi-agents);

Par Olivier Sigaud , 23 décembre, 2020

Visualisation du paysage de valeur pour mieux comprendre l’apprentissage par renforcement

Un projet P-Androide 2019-2020 a consisté à mettre au point des outils de visualisation du paysage de valeur et des trajectoires de descente de gradient pour mieux comprendre la dynamique des algorithmes d’apprentissage par renforcement. Ces outils ont été appliqués à l’environnement de contrôle classique Swimmer et en utilisant l’algorithme Twin Delayed Deterministic Gradient (TD3).

L’objet de ce projet est à la fois d’enrichir les outils et de mieux démontrer leur utilité dans le cadre d’une étude à la fois plus précise et plus large.

Par Olivier Sigaud , 23 décembre, 2020

Comparaison de méthodes évolutionnaires et d’apprentissage par renforcement sur des benchmarks de contrôle classique

Les méthodes évolutionnaires et les méthodes d’apprentissage par renforcement constituent deux alternatives pour résoudre des problème de recherche d’une politique optimale sur des problèmes où les actions sont continues. L’objet de ce projet est de se livrer à une comparaison systématique des propriétés de ces deux approches dans des environnements classiques de faible dimension tels que CartPole, Pendulum, Mountain Car et éventuellement des labyrinthes classiques tels que Deceptive Maze ou Simple Maze.

Par Olivier Sigaud , 23 décembre, 2020

Etude de l’apprentissage par renforcement profond sur Pendulum

Les algorithmes d’apprentissage par renforcement profond à actions continues sont souvent appliqués en simulation à des problèmes de contrôle de grande taille tels que les benchmarks MuJoCo où il faut contrôler un “demi-guépard” (HalfCheetah), un serpent nageur (Swimmer), une “araignée” à 4 pattes (Ant) ou un humanoïde plus ou moins complet (Hopper, Walker, Humanoid)...