Liste de ressources électroniques et outils développés dans le cadre des projets
Corpus français étiqueté et lemmatisé corrigé manuellement (environ 900000 tokens), pour l'entraînement de l'étiqueteur TTL (Ion 2007) et de l'analyseur syntaxique de Bohnet (Bohnet 2009);
Corpus parallèle aligné au niveau lexical FR-EN; EN-RO (1000 phrases);
RefGen – outil de détection automatique de chaînes de réference, dévéloppé en Java (comprenant une base de patrons d'extraction des entités nommées et des emplois impersonnels de 'il');
Corpus annoté en relations de coréférence (10000 tokens), en format XML;
Corpus français de textes scientifiques-textes de vulgarisation (1000000 tokens), analysé syntaxiquement avec l'analyseur syntaxique de Bohnet (2009);
Dictionnaire multilingue de collocations (français-roumain, 250 entrées);
Prototype pour un dictionnaire bilingue pour la traduction français-espagnol (Transverb);