Accueil > Projets > Anciens projets > AnaLyse de la Lisibilité et SImplification pour le Français (2013-2014)

ALLuSIF - AnaLyse de la Lisibilité et SImplification pour le Français

Description du projet

Les travaux sur l'analyse de la lisibilité ou la simplification automatique concernent essentiellement des langues comme l'anglais ou le portugais. Les travaux dédiés au français sont bien plus rares. L'objectif de ce projet est de faire avancer la recherche sur les thématiques de la lisibilité et de la simplification pour le français. En effet, les partenaires associés au projet ont développé divers outils et ressources pour le français qui gagneraient à être intégrés afin de proposer un système global :

Une formule de lisibilité (François, 2011), développée au Cental dans le cadre de la thèse de Thomas François. Cette formule a été entraînée sur un corpus de textes extraits de manuels de FLE (Français Langue Etrangère), mêlant divers types de textes (récits, dialogues, articles de journaux, etc.). Elle est ainsi capable de produire des prédictions relativement robustes dans des contextes divers. Elle recourt à 46 prédicteurs (lexicaux, syntaxiques, sémantiques et spécifiques au FLE) combinées au sein d'un modèle SVM (séparateur à vastes marges).
Le stage de Laetitia Brouwers, réalisé au LIMSI sous la direction d'Anne-Laure Ligozat (LIMSI), Delphine Bernhard (LiLPa) et Thomas François (CENTAL) a donné lieu au développement d'un outil pour la simplification automatique de phrases en français (Brouwers et al., 2012). L'outil repose sur un ensemble de règles de transformation opérant sur des arbres syntaxiques enrichis.
RefGen (Longo & Todirascu, 2010) est un outil développé à l'université de Strasbourg qui permet l'identification automatique de chaînes de référence. c'est-a-dire les séquences d'expressions référentielles (nom propre, groupe nominal défini, pronoms) qui co-réfèrent à la même entité : "M.Barack Obama... il... le président des Etats-Unis".
Polymots (Gala et Rey, 2008) et Polymarmots sont deux ressources lexicales réalisées par l'équipe TALEP (LIF-CNRS). Dans Polymots, 19 000 mots du français contemporain sont regroupés en familles morpho-phonologiques et présentent des informations sur leur forme (dérivation) et leur sens (synonymes). Polymarmots est, quant à elle, une base lexicale pour faciliter l'apprentissage du vocabulaire du français au niveau scolaire. Elle contient différentes informations phonétiques, morphologiques, sémantiques et statistiques provenant de la fusion de Polymots et de Novlex (Lambert et Chesnet, 2001).

L'objectif du projet sera d'enrichir, d'intégrer et de combiner l'existant selon les axes suivants :

Utiliser les informations issues des ressources lexicales de l'équipe TALEP pour l'analyse de la lisibilité et la simplification automatique.
Utiliser les informations discursives sur les liens de co-référence et les marqueurs de changement de thème, sur la base de l'outil RefGen développé à LiLPa (Longo & Todirascu, 2010).
Intégrer analyse de la lisibilité et simplification automatique. L'analyse de la lisibilité peut intervenir à différents niveaux de la simplification : (i) en amont, afin de détecter les phrases complexes candidates à la simplification, (ii) au cours de la simplification, afin de guider l'application des règles conduisant à la plus grande amélioration de la lisibilité.