Reconnaissance audio par des modèles de fondation pour un robot manipulateur mobile

Par Stéphane Doncieux , 19 janvier, 2025

## Contexte

Les grands modèles de fondation sont un outil prometteur en robotique grâce à leur capacité à agir comme une interface à la fois ouverte et informée -- par la base de donnée utilisée pour l'entrainer et le contexte qui lui est fourni -- entre des utilisateurs
non-experts et des robots.

L'ISIR développe actuellement des robots manipulateurs mobiles qui intègrent différents travaux du laboratoire sur la saisie d'objets, leur manipulation et sur l'interaction sociale. Ces développements intègrent des modèles de fondation (LLM, VLM) pour exploiter, entre autres, la capacité de ces modèles à manipuler du texte avec un vocabulaire ouvert.

## Objectif

L'objectif de ce projet est le développement d'une interface homme-machine acceptant des instructions vocales pour un robot manipulateur mobile muni d'une architecture cognitive basée sur le langage.

Le robot devra être capable d’interagir avec les utilisateurs à l’oral. Des modules de text-to-speech comme Faster-Whisper (https://github.com/SYSTRAN/faster-whisper) pourront être utilisés pour cela, de même que des bibliothèques de text-to-speech (TTS). Une fois cette première étape réalisée, l’étape suivante sera d’explorer des protocoles pour que les modèles de langage, conçus pour des interactions très structurées (prompt puis réponse puis prompt, etc) puissent accepter des ordres asynchrones, par exemple pour permettre à l’utilisateur d’interrompre une action en cours.

Si le temps le permet, il sera aussi possible de compléter l’interface par une interface graphique permettant au robot de communiquer ses intentions passivement, de proposer des mécanismes d’attention pour que le robot ne traite que les communications le ciblant directement, ou encore d’adapter les modèles STT et TTS pour accepter certains mots non-communs liés au domaine dans lequel le robot évolue.

## Encadrement

Emiland Garrabé
Stéphane Doncieux
 

Encadrant
Emiland Garrabé (garrabe@isir.upmc.fr), Stéphane Doncieux (stephane.doncieux@isir.upmc.fr)
Nombre d'étudiants
2
Attribué
Oui
Obsolète
Non
Etudiants affectés
Inés Tian Ruiz-Bravo Plovins, Inés Rahaoui
Tags