Apprentissage par renforcement profond pour la robotique

Contexte :

L'apprentissage par essais et erreurs est un mécanisme fondamental du développement cognitif, qui fait l'objet d'intenses recherches en modélisation sous le nom d' « apprentissage par renforcement ». En robotique, en particulier, on veut apprendre à choisir la meilleure action dans un espace continu, ce qui est difficile en théorie – faute de preuves de convergence - et en pratique – suite à la « malédiction de la dimensionalité ».
En conséquence, jusqu'à récemment, l'état de l'art a évolué vers des méthodes de gradient sur des politiques paramétrées qui ne tirent pas partie de toute la puissance du cadre formel de l'apprentissage par renforcement. En particulier, ces méthodes renoncent à approcher la fonction de valeur qui permet pourtant de mettre à jour plus efficacement les politiques paramétrées. Très récemment, un algorithme combinant apprentissage par renforcement et apprentissage profond (deep learning) est venu modifier cet état de fait [Lillicrap et al., 2015].
Cet algorithme mérite un examen détaillé, qui fait l'objet principal du stage, avant une éventuelle application sur le robot humanoïde iCub, dans le cadre du projet Européen DREAM.

Objectifs :

Dans un premier temps, l'objectif principal du stage est de comprendre et recoder en l'état l'algorithme décrit dans [Lillicrap et al., 2015]. On comparera ensuite les performances de cet algorithme à des alternatives de la littérature, ainsi qu'à des variantes du même algorithme reposant sur d'autres briques de base. On produira aussi une analyse conceptuelle de l'algorithme centrée sur sa capacité à extraire des représentations hiérarchiques pertinentes pour la décision.
Dans un second temps, en fonction des résultats, le travail consistera à proposer des améliorations ou bien à valoriser l'algorithme sur une application robotique non triviale inscrite dans le cadre du projet DREAM.

Profil recherché :

Le stage sera l'occasion d'acquérir une solide compétence sur les méthodes d'apprentissage par renforcement dans le continu, l'apprentissage profond et la commande robotique. Une connaissance élémentaire d'au moins l'un de ces trois domaines est bienvenue. Par ailleurs, un bon niveau en programmation et une certaine capacité d'analyse mathématiques sont requises. Un élève ingénieur
effectuant un master de recherche et intéressé par une thèse après son stage serait le candidat idéal.

Références :

• Timothy P. Lillicrap Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra (2015) Continuous control with deep reinforcement learning, arXiv preprint arXiv:1509.02971

Lieu: 
ISIR, UPMC
Thématiques: 
Encadrant: 
Olivier Sigaud
Référent Universitaire: 
Safia Kedad-Sidhoum
Attribué: 
Yes
Année: 
2 016

User login