Search & Find
Accueil
Accueil   >   Projets   >   Projets achevés   >   DEscription et MOdélisation des Chaînes de Référence : outils pour l’Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique

DEMOCRAT

Résumé du projet

DEMOCRAT vise à développer les recherches sur la langue et la structuration textuelle du français via l’analyse détaillée et contrastive des chaînes de référence (instanciations successives d’une même entité) dans un corpus diachronique de textes écrits entre le 9ème et le 21ème siècle, avec des genres textuels variés. Le projet mettra à disposition de la communauté scientifique : (i) un modèle intégré et discursif de la référence et de la composition des chaînes de référence ; (ii) un corpus annoté qui puisse servir de corpus de référence et de corpus d’apprentissage pour les campagnes d’évaluation internationales portant sur la coréférence ; (iii) un outil d’annotation, d’aide à l’annotation et de manipulation des données annotées, et (iv) un système de détection automatique des coréférences. Le corpus annoté manuellement en chaînes de référence aura une taille de 1 million de mots, soit environ 100 000 maillons annotés.

Motivations : (i) besoin d’un modèle théorique de la référence et des chaînes de référence, qui soit à la fois fin d’un point de vue linguistique et suffisamment formel pour en permettre une implantation informatique, une volonté du projet étant de faire un pont entre théories linguistiques et traitement automatique des langues ; (ii) besoin de données linguistiques attestées, en particulier diachroniques, permettant d’une part d’apprécier les variations de composition des chaînes de référence, d’autre part de servir de corpus de référence en langue française (écrite) sur des données nouvelles relevant de la sémantique et pas seulement de la morphosyntaxe et de la syntaxe ; (iii) besoin d’une plateforme unifiée pour la gestion de corpus, de la visualisation à l’interrogation et aux calculs statistiques, en passant par l’annotation de phénomènes relevant de différentes dimensions du langage ; (iv) besoin d’un système de détection automatique des chaînes de référence pour la langue française, basé sur des modèles appris avec des algorithmes d’apprentissage artificiel à la pointe de la technologie, tels que les réseaux de neurones.


Modèle et corpus : malgré des descriptions existantes très fournies sur les expressions référentielles, il n’en existe ni de description intégrée pour modéliser les chaînes de référence, ni de prédiction sur leur comportement textuel, voire leur typologie. A fortiori, il n’existe ni corpus en diachronie ni corpus translinguistique pour apprécier les variations de leur composition. Il existe un seul corpus de grande taille annoté en anaphores (ANCOR), sur du français oral, mais aucun corpus annoté en chaînes de référence, sur du français écrit, c'est-à-dire avec des chaînes de référence de longue taille. Il s’agit donc de construire un corpus de travail pertinent et suffisamment varié pour montrer la diversité de composition des chaînes de référence, de fournir des propositions théoriques favorisant un travail d’annotation efficace, et aider à perfectionner les outils d’annotation. Seront exploités et enrichis le Corpus Représentatif des Premiers Textes Français, la Base de Français Médiéval, le « Syntactic Reference Corpus of Medieval French » et, pour la langue contemporaine, des extraits des corpus de l’ANR ORFEO.


Linguistique outillée : la mise en oeuvre d’une plateforme d’annotation, construite sur la plateforme TXM et enrichie par les fonctionnalités d’annotation dynamique d’ANALEC permettra de fournir un cadre unifié pour l’annotation efficace et ergonomique du corpus, ainsi que pour des expérimentations d’aide à l’annotation.


Système de TAL : il s’agira d’optimiser CROC (« Coreference Resolution for Oral Corpus »), un prototype développé au LaTTICe à l’aide de techniques d’apprentissage automatique utilisées sur le corpus ANCOR, et d’ouvrir la voie à la réalisation de systèmes hybrides, conciliant plusieurs techniques d'apprentissage ainsi que des systèmes de règles comme celui utilisé dans l'outil RefGen développé au LILPA. DEMOCRAT permettra ainsi la mise en oeuvre du premier système de détection automatique de chaînes de référence pour le français, système qui participera à des campagnes d'évaluation internationales.

Partenaires

  • LaTTICe (ENS/Paris 3)
  • ICAR (ENS/Lyon2)
  • LiLPa (Strasbourg)

Financement

ANR, référence ANR-15-CE38-0008

Investissements Avenir
Université de Strasbourg

Flux RSS

Le 7 février 2025
De 15h00 à 18h00

Flux RSS

oct. 29 2024

- HDR Daniéla Capin : 8 janvier 2025 - Tatiana Kaplun : 20 janvier 2025

oct. 12 2024

Le laboratoire LiLPa a le grand plaisir d’annoncer la parution d’un livre en l’honneur de notre...