En robotique, l'apprentissage de capacité motrices requiert des quantités importantes de données, qui sont difficiles à obtenir directement dans le monde réel. Pour collecter des données à grande échelle, il est courant d'utiliser un environnement simulé qui imite la réalité. Cependant, des écarts entre cette simulation et le monde réel peuvent rendre incertaine l'application des politiques apprises dans le monde réel, et il est difficile d'adapter manuellement la simulation à chaque configuration de l'environnement réel du robot.
L'utilisation de grands modèles de language (LLM) et de modèles vision-language (VLM) est une piste prometteuse pour surmonter cette difficulté. Ces derniers peuvent répondre à des questions en se basant sur des images, écrire du code et ont des connaissances généralistes sur les objets courants. Réunies, ces capacités peuvent permettre de générer des scènes simulées en se basant sur des observations du monde réel, sans besoin d'intervention humaine.
Dans un premier temps, l'objectif du projet consistera à développer un système basé sur les modèles de fondation pour générer des scènes en utilisant des bibliothèques d'objets virtuels (par exemple le jeu de données YCB). Il sera pour cela nécéssaire d'implémenter des fonctions paramétrées permettant d'ajouter des objets en spécifiant leurs positions, leurs relations physiques, etc, dans la simulation. Par la suite, des mécanismes d'alignement, ayant pour but de corriger des incohérences physiques dans la scène générée et de la rendre aussi fièle que possible à la réalité terrain, seront étudiés.