Search & Find
Accueil
Accueil   >   Projets   >   Anciens projets   >   COrpus Parallèles pour l'ALsacien (2012-2013)

COPAL - COrpus Parallèles pour l'ALsacien

Description du projet

Le traitement des données langagières est complexe et le développement de ressources et outils de Traitement Automatique des Langues est donc très lourd et gourmand en ressources humaines et, de fait, financières. Ceci explique le peu de ressources et outils existants pour les langues minoritaires ou les dialectes. Pourtant, dans le cas des dialectes, la proximité avec la langue "standard" fait qu'il est possible d'utiliser les outils développés pour celle-ci, à condition de pouvoir faire le lien entre variantes dialectales et formes "standard" à l'aide de ressources spécifiques. En effet, les outils du TAL sont peu robustes aux déviances de la norme standard (différentes conventions orthographiques, fautes d'orthographe, langage SMS ou tchatté, et également variantes dialectales) et il est donc nécessaire de normaliser les données pour pouvoir appliquer les outils.

Ce besoin de normalisation vers une langue standard pose de nombreuses questions scientifiques qui vont au-delà de purs problèmes d'ingénierie et s'étendent à des domaines tels que la didactique des langues, lorsqu'il s'agit d'enseigner un dialecte.

Le projet se propose de répondre à cette problématique en trois étapes :

  • Inventaire des ressources électroniques existantes en alsacien et utilisables en TAL. Différentes sources de données seront considérées : l'Atlas Ethnographique et Linguistique de l'Alsace, la Wikipédia en alsacien et les autres ressources qui pourront être identifiées au cours de la première phase projet. Dans cette étape, l'accent est mis sur la diversité des ressources, sans a priori sur les diverses conventions orthographiques utilisées pour représenter les variantes phonétiques. L'objectif est notamment de constituer un corpus parallèle.
  • Constitution d'un corpus parallèle diversifié comprenant plusieurs variantes dialectales et plusieurs conventions orthographiques pour la transcription des variations phonétiques. Le corpus parallèle obtenu pourra être utilisé dans divers cadres : réflexions théoriques autour de la notion de norme (et de son absence) ou enseignement de l'alsacien par mise en correspondance entre diverses langues.
  • Alignement lexical automatique du corpus parallèle à l'aide d'un système développé dans l'équipe et permettant d'identifier les cognats du français et du roumain, développé par M. Navlea et A. Todirascu.

Participants

  • Delphine Bernhard (porteur du projet)
  • Pascale Erhart
  • Dominique Huck
  • Mirabela Navlea
  • Yves Scherrer (participant externe)
  • Lucie Steiblé
  • Amalia Todirascu

Financement

Conseil scientifique de l'université de Strasbourg, appel à projets 2012

Publications


Investissements Avenir
Université de Strasbourg

Flux RSS

Flux RSS

oct. 29 2024

- Jinwoo Cha : 7 novembre 2024 - Anaïs Koehler : 6 décembre 2024 - Amandine Robert : 7 décembre...

oct. 12 2024

Le laboratoire LiLPa a le grand plaisir d’annoncer la parution d’un livre en l’honneur de notre...