## Contexte
Les grands modèles de langue sont un outil prometteur en robotique grâce à leur capacité à agir comme une interface à la fois ouverte et informée -- par la base de donnée utilisée pour l'entrainer et le contexte qui lui est fourni -- entre des utilisateurs
non-experts et des robots. Par exemple, les modèles multimodaux (modèles de langue capables de traiter des images), peuvent servir à planifier des tâches données par l’utilisateur en utilisant des images de l’environnement.
Les modèles de langue rencontrent cependant des difficultés à s’ancrer dans le monde réel, en particulier si on utilise des modèles de taille réduite, moins gourmands en énergie et plus compatibles avec une utilisation robotique. Il est parfois nécessaire de passer par des interactions successives avec l’environnement pour permettre à ces modèles d’extraire les informations pertinentes à la prise de décision, en commençant par une perception passive avant de raffiner certaines informations par une perception active plus focalisée.
## Objectif
L'objectif de ce projet est de développer et tester un module de perception active basé sur le langue. Un planificateur développé par les encadrants propose des actions selon une image issue de la caméra du robot. Ce planificateur s'appuie sur des modèles multi-modaux (VLM) qui génèrent des erreurs résiduelles sur l'identification des objets de la scène. L'amélioration des performances de ces modèles peut se faire par ajustement des poids avec de nouvelles données, mais aussi par le biais d'interactions au travers de prompts visant à préciser ou corriger les réponses fournies. Le développement demandé portera sur ce deuxième type d'approche et impliquera l'utilisation de VLM pré-entrainés dans un cadre interactif.
Les développements seront réalisés en interaction avec l'équipe en charge du développement de robots manipulateurs mobiles (robots TIAGO, bras Franka), équipe qui pourra aider à appliquer les développements réalisés sur robot réel selon l'avancée du projet.
## Encadrement
Emiland Garrabé
Stéphane Doncieux