Modèle d'adaptation dialogique par apprentissage par renforcement

Contexte : Les agents conversationnels sont des entités virtuelles d'apparence humaine. Ils communiquent aussi bien verbalement que non verbalement et sont utilisés comme interface dans l'interaction humain-machine en jouant plusieurs rôles comme assistant, enseignant, guide ou compagnon. Ils sont dotés d'une capacité de communication, c'est-à-dire qu'ils peuvent dialoguer avec les humains par des moyens de communication verbaux et non verbaux.
Cette interaction ne peut se faire sans une adaptation temps-réel et continue du comportement de l’agent face au comportement de l’utilisateur. L’adaptation est multi-niveaux. Elle intervient aussi bien au niveau des stratégies conversationnelles, linguistiques ainsi que comportementales. Elle implique des phénomènes complexes tels que de synchronisation ou d’imitation. L’adaptation entre locuteurs peut avoir plusieurs fonctions comme le renforcement de leur relation mutuelle, leur engagement dans l’interaction. Pour développer un agent capable de maintenir une interaction et de créer une relation avec ses interlocuteurs, il est important de le doter de capacités d’adaptation.

Objectif :
L’objectif de ce stage est d’implémenter un modèle computationnel permettant d’optimiser les stratégies conversationnelles de l’agent dans le but de maximiser l’engagement de l’utilisateur au cours de l’interaction. Pour cela, l’idée est d’enrichir les modèles existants d’apprentissage par renforcement tels que ceux décrits dans [1] ou [2]. Ces modèles définissent quelle récompense sera reçue par l’agent en fonction de l’action qu’il choisit compte tenu de l’état actuel du dialogue. Si la plupart des travaux existants se concentrent principalement sur le comportement verbal de l’agent et de l’utilisateur lorsqu’ils sont locuteurs, nous souhaiterions également intégrer le comportement (verbal et non-verbal) de l’interlocuteur dans le calcul de la récompense obtenue par l’agent. Cela permettrait à l’agent d’adapter plus finement son comportement en fonction du type d’utilisateur avec lequel il interagit.

[1] Pecune, F., & Marsella, S. (2020, October). A framework to co-optimize task and social dialogue policies using Reinforcement Learning. In Proceedings of the 20th ACM International Conference on Intelligent Virtual Agents (pp. 1-8).
[2] Biancardi, B., Wang, C., Mancini, M., Cafaro, A., Chanel, G., & Pelachaud, C. (2019, September). A Computational Model for Managing Impressions of an Embodied Conversational Agent in Real-Time. In 2019 8th International Conference on Affective Computing and Intelligent Interaction (ACII) (pp. 1-7). IEEE.

Lieu: 
ISIR, Sorbonne Université
Thématiques: 
Encadrant: 
Catherine Pelachaud
Co-Encadrant: 
Florian Pécune
Référent Universitaire: 
n/a
Fichier Descriptif: 
Attribué: 
No
Année: 
2 021

User login