Identification et indexation d'entité nommées

Il s'agit d'un projet dans le domaine des humanités numériques. L'objet est de perfectionner un outil d'identification et d'indexation d'entités nommées par construction d'un dictionnaire d'alias, puis détection et étiquettage des ambiguités, dans un corpus important et structuré de textes.
Il s'agit de faciliter la construction des dictionnaires et l'annotation des corpus en facilitant le retour au texte et de développer des outils de consultation et de d'analyses du corpus à l'aide de ces annotations (typiquement des graphes de co-occurences).
Un prototype d'outil en python pré-existant pourra servir de base au développement.

Encadrant: 
Gauvain Bourgne
Nombre d'étudiants: 
3
Attribué: 
Yes
Deprecated: 
No

User login