Atelier associé à TALN - 2015 22e conférence sur le Traitement Automatique des Langues Naturelles, Caen, 22-25 juin 2015
Les recherches en traitement automatique des langues peu et moyennement dotées connaissent actuellement un regain d’intérêt à travers la constitution de corpus et de lexiques dans une perspective globale de préservation du patrimoine culturel. Les langues régionales sont généralement à ranger dans cette catégorie, car les ressources électroniques pour ces langues sont rares, peu visibles et sous exploitées, parfois inexistantes. Doter ces langues de ressources électroniques (notamment de corpus écrits, de lexiques et de dictionnaires) est un enjeu considérable pour leur diffusion, leur enseignement, leur sauvegarde, leur normalisation... Il est, entre autres, nécessaire de développer des corpus textuels, les plus représentatifs possibles des usages de la langue, en rassemblant des œuvres écrites de différents genres (littérature, théâtre, poésie, conte, presse...) et, pour certaines langues, en accueillant la variation (dialectale, phonologique, graphique). La seconde étape consiste logiquement à enrichir ces corpus d’annotations.
L'élaboration des corpus annotés pour les langues régionales soulève de nombreuses questions méthodologiques. Il n'est notamment pas toujours possible de transposer directement les modèles existants pour les langues bien dotées, notamment en raison des variations dues en partie à une standardisation moins forte que pour les langues nationales. Les corpus sont également une base nécessaire pour l'élaboration des dictionnaires, lexiques et glossaires. Sur le plan linguistique, les corpus sont nécessaires pour la description des usages réels d'une langue. Et en contre-partie, sur le plan technique, les dictionnaires et les lexiques sont nécessaires pour accompagner l’élaboration des corpus et de leurs annotations (reconnaissance optique de caractères, lemmatisation et analyse morpho-syntaxique). Lorsque ces ressources existent déjà pour une langue ou une variété de langue (dictionnaires, lexiques, glossaires bilingues couplant une langue régionale et une langue nationale), se pose la question de la mutualisation des informations contenues dans ces ressources, de l'enrichissement de ces données avec des informations supplémentaires (phonétiques, morpho-syntaxiques, syntaxiques) et de leur utilisation dans des outils de TAL. Enfin, une fois établis, corpus et lexiques sont nécessaires pour le développement d'outils de traitement automatique des langues (analyse morpho-syntaxique, syntaxique). Il faut alors se poser la question de comment tirer parti au mieux de ces ressources, souvent incomplètes, dans le développement des outils.
Au-delà des difficultés techniques et méthodologiques, il ne faut pas négliger les difficultés plus pragmatiques liées au manque de ressources financières et humaines pour mener à bien la constitution de ressources. Cet atelier a pour but de réunir des chercheurs qui participent à la constitution de ressources linguistiques et d'outils "de base" du TAL pour les langues régionales de France et d’Europe afin de partager nos questionnements et nos méthodologies, de mutualiser nos réflexions et les techniques développées.
Nous appelons à la soumission d’articles autour de la constitution de ressources et d'outils pour des langues régionales ou minoritaires de France et d’Europe (y compris les langues d’Outre Mer). Les propositions pourront concerner des travaux aboutis ou des études préliminaires sur les thématiques suivantes (sans s'y limiter):
9h-9h10 | Présentation de l'atelier | |
9h10-9h30 | Création de ressources lexicales pour une langue d'oïl : le parlanjhe | Marie-Helene Lay et Jean-Christophe Dourdet. |
9h30-9h55 | Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique | Delphine Bernhard et Lucie Steiblé. |
9h55-10h15 | PICARTEXT : Une ressource informatisée pour la langue picarde | Jean-Michel Eloy, Fanny Martin et Christophe Rey. |
10h15-10h40 | Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton | Annie Foret, Valérie Bellynck et Christian Boitet. |
10h40-11h00 | Pause café | |
11h00-11h25 | Feuille de route pour le développement numérique occitan | Benoît Dazéas. |
11h25-11h50 | Communication sur les travaux de Òsca-Font dubèrta | Dominique Château-Annaud. |
11h50-12h15 | Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan | Marianne Vergez-Couret et Assaf Urieli. |
Les articles seront rédigés en français pour les francophones, en anglais pour ceux qui ne maîtrisent pas le français. Ils devront suivre le format de TALN-RÉCITAL 2015 et comprendront un maximum de 12 pages pour les articles longs et 6 pages pour les articles courts. Une feuille de style LaTeX et un modèle Word et OpenOffice sont disponibles sur le site web de la conférence (https://taln2015.greyc.fr/soumissionstaln/). Les articles acceptés donneront lieu à une présentation au cours de l’atelier. Les critères de sélection sont les mêmes que ceux définis par TALN 2015 pour les articles de recherche.
Les articles, au format pdf, doivent être déposés à l'adresse
https://easychair.org/conferences/?conf=talare2015
- Jinwoo Cha : 7 novembre 2024 - Anaïs Koehler : 6 décembre 2024 - Amandine Robert : 7 décembre...
Le laboratoire LiLPa a le grand plaisir d’annoncer la parution d’un livre en l’honneur de notre...