Accueil > Projets > Anciens projets > COrpus Parallèles pour l'ALsacien (2012-2013)

COPAL - COrpus Parallèles pour l'ALsacien

Description du projet

Le traitement des données langagières est complexe et le développement de ressources et outils de Traitement Automatique des Langues est donc très lourd et gourmand en ressources humaines et, de fait, financières. Ceci explique le peu de ressources et outils existants pour les langues minoritaires ou les dialectes. Pourtant, dans le cas des dialectes, la proximité avec la langue "standard" fait qu'il est possible d'utiliser les outils développés pour celle-ci, à condition de pouvoir faire le lien entre variantes dialectales et formes "standard" à l'aide de ressources spécifiques. En effet, les outils du TAL sont peu robustes aux déviances de la norme standard (différentes conventions orthographiques, fautes d'orthographe, langage SMS ou tchatté, et également variantes dialectales) et il est donc nécessaire de normaliser les données pour pouvoir appliquer les outils.

Ce besoin de normalisation vers une langue standard pose de nombreuses questions scientifiques qui vont au-delà de purs problèmes d'ingénierie et s'étendent à des domaines tels que la didactique des langues, lorsqu'il s'agit d'enseigner un dialecte.

Le projet se propose de répondre à cette problématique en trois étapes :

Inventaire des ressources électroniques existantes en alsacien et utilisables en TAL. Différentes sources de données seront considérées : l'Atlas Ethnographique et Linguistique de l'Alsace, la Wikipédia en alsacien et les autres ressources qui pourront être identifiées au cours de la première phase projet. Dans cette étape, l'accent est mis sur la diversité des ressources, sans a priori sur les diverses conventions orthographiques utilisées pour représenter les variantes phonétiques. L'objectif est notamment de constituer un corpus parallèle.
Constitution d'un corpus parallèle diversifié comprenant plusieurs variantes dialectales et plusieurs conventions orthographiques pour la transcription des variations phonétiques. Le corpus parallèle obtenu pourra être utilisé dans divers cadres : réflexions théoriques autour de la notion de norme (et de son absence) ou enseignement de l'alsacien par mise en correspondance entre diverses langues.
Alignement lexical automatique du corpus parallèle à l'aide d'un système développé dans l'équipe et permettant d'identifier les cognats du français et du roumain, développé par M. Navlea et A. Todirascu.

Participants

Delphine Bernhard (porteur du projet)
Pascale Erhart
Dominique Huck
Mirabela Navlea
Yves Scherrer (participant externe)
Lucie Steiblé
Amalia Todirascu

Financement

Conseil scientifique de l'université de Strasbourg, appel à projets 2012

Publications

Agenda

Séminaire Inter-Thèmes LiLPa

Le 24 mai 2024

De 15h00 à 18h00

Agenda complet

Actualités

Calendrier des séminaires 2023-2024

sept. 21 2023

LiLPa organise six séminaires au cours de l'année.Les séminaires de l'UR LiLPa ont lieu le vendredi...

Toutes les actualités