Projets

Les propositions de projets de M1. Vous devrez faire votre choix (en contactant directement les encadrants) pour le 26 Janvier.
Attention les projets s'afficent sur plusieurs pages!

Apprentissage et généralisation en robotique: étude de l'algorithme "novelty search"

Les algorithmes d'apprentissage par renforcement visent à trouver une politique permettant de déterminer l'action à appliquer dans un état donné pour maximiser une récompense sur un certain horizon. La robotique cumule plusieurs défis pour ces algorithmes. Les espaces d'états comme les espace d'action sont continus, les récompenses sont rares, les fonctions de transition peuvent être bruitées, etc. Une solution à ces défis consiste à définir des politiques paramétrées et à explorer l'espace de ces paramètres en testant les politiques correspondantes et en mesurant la récompense obtenue.

Mariage stable dynamique

Le problème des mariages stables est au coeur de nombreuses procédures d'affectation, la plus connue en France
étant probablement ParcourSup. Il y a dans ce problème deux types de joueurs (hommes/femmes, candidat(e)s/universités,...),
chaque joueur d'un type donnant ses préférences sur les joueurs de l'autre type (les universités classent les
candidat(e)s par exemple). Le but est de trouver une affectation/un couplage vérifiant une propriété de stabilité.
L'algorithme le plus connu pour trouver une telle affectation est l'algorithme de Gale-Shapley.

BMBD : Analyse et vérification en-ligne de protocoles multi-agents

L’objectif de ce sujet est, en s'appuyant sur le travail réalisé l'année passée, d'enrichir le comportement d'un agent de supervision afin de permettre aux utilisateurs de suivre dynamiquement le comportement des protocoles en cours d’exécution sur la plateforme JADE [5]. L'agent de supervision a la capacité de voir passer tous les messages des agents qui lui sont rattachés. Il lui faut maintenant détecter, identifier et signaler les éventuels dysfonctionnements.

Plateforme logicielle pour le vol autonome et le transfert d’autorité en-ligne

l'objectif de ce p-androide est de faire évoluer une application existante qui réalise une interface entre une station sol définissant le plan de de vol d'un drone, un controleur de vol (IA ou humain), et une plateforme de réalisation (simulateur gazebo ou un drone réel), afin de pouvoir tester différentes stratégies de vol.

Apprentissage de modèles graphiques factorisés en temps continu

Les réseaux bayésiens (BNs) sont un modèle probabiliste qui s’appuie sur un graphe (orienté sans cycle) pour représenter une distribution jointe d’un grand nombre de variables aléatoires. Ce modèle à la fois numérique (distribution) et qualitatif (graphe) est un point de contact intéressant entre probabilités, statistiques et intelligence artificielle.

Il permet d’implémenter des outils de raisonnement, de calcul de fiabilité, d’explications causales, mais aussi d’apprentissages statistiques et des outils de classification (machine learning, etc.).

Apprentissage par renforcement profond : analyse détaillée de SVPG

Résumé :

L'algorithme Stein Variational Policy Gradient (SVPG) est un algorithme à mi-chemin entre des approches évolutionnaires et des algorithmes d’apprentissage par renforcement. Un code en python est disponible sur github. L’objectif de ce projet est de prendre en main ce code et d’analyser de façon détaillée diverses propriétés de cet algorithme, notamment par des comparaisons avec les algorithmes proches.

Sujet développé :

Pages

User login