TALaRE 2015 - Traitement Automatique des Langues Régionales de France et d'Europe

Description

Atelier associé à TALN - 2015 22e conférence sur le Traitement Automatique des Langues Naturelles, Caen, 22-25 juin 2015

Les recherches en traitement automatique des langues peu et moyennement dotées connaissent actuellement un regain d’intérêt à travers la constitution de corpus et de lexiques dans une perspective globale de préservation du patrimoine culturel. Les langues régionales sont généralement à ranger dans cette catégorie, car les ressources électroniques pour ces langues sont rares, peu visibles et sous exploitées, parfois inexistantes. Doter ces langues de ressources électroniques (notamment de corpus écrits, de lexiques et de dictionnaires) est un enjeu considérable pour leur diffusion, leur enseignement, leur sauvegarde, leur normalisation... Il est, entre autres, nécessaire de développer des corpus textuels, les plus représentatifs possibles des usages de la langue, en rassemblant des œuvres écrites de différents genres (littérature, théâtre, poésie, conte, presse...) et, pour certaines langues, en accueillant la variation (dialectale, phonologique, graphique). La seconde étape consiste logiquement à enrichir ces corpus d’annotations.

L'élaboration des corpus annotés pour les langues régionales soulève de nombreuses questions méthodologiques. Il n'est notamment pas toujours possible de transposer directement les modèles existants pour les langues bien dotées, notamment en raison des variations dues en partie à une standardisation moins forte que pour les langues nationales. Les corpus sont également une base nécessaire pour l'élaboration des dictionnaires, lexiques et glossaires. Sur le plan linguistique, les corpus sont nécessaires pour la description des usages réels d'une langue. Et en contre-partie, sur le plan technique, les dictionnaires et les lexiques sont nécessaires pour accompagner l’élaboration des corpus et de leurs annotations (reconnaissance optique de caractères, lemmatisation et analyse morpho-syntaxique). Lorsque ces ressources existent déjà pour une langue ou une variété de langue (dictionnaires, lexiques, glossaires bilingues couplant une langue régionale et une langue nationale), se pose la question de la mutualisation des informations contenues dans ces ressources, de l'enrichissement de ces données avec des informations supplémentaires (phonétiques, morpho-syntaxiques, syntaxiques) et de leur utilisation dans des outils de TAL. Enfin, une fois établis, corpus et lexiques sont nécessaires pour le développement d'outils de traitement automatique des langues (analyse morpho-syntaxique, syntaxique). Il faut alors se poser la question de comment tirer parti au mieux de ces ressources, souvent incomplètes, dans le développement des outils.

Au-delà des difficultés techniques et méthodologiques, il ne faut pas négliger les difficultés plus pragmatiques liées au manque de ressources financières et humaines pour mener à bien la constitution de ressources. Cet atelier a pour but de réunir des chercheurs qui participent à la constitution de ressources linguistiques et d'outils "de base" du TAL pour les langues régionales de France et d’Europe afin de partager nos questionnements et nos méthodologies, de mutualiser nos réflexions et les techniques développées.

Nous appelons à la soumission d’articles autour de la constitution de ressources et d'outils pour des langues régionales ou minoritaires de France et d’Europe (y compris les langues d’Outre Mer). Les propositions pourront concerner des travaux aboutis ou des études préliminaires sur les thématiques suivantes (sans s'y limiter):

Ressources :

Constitution de corpus écrits et oraux, y compris transcriptions de l’oral
Élaboration de lexiques, dictionnaires, glossaires

Outils :

Outils pour la numérisation, l'océrisation et le codage des textes
Annotations linguistiques (manuelle et automatique pour analyses morpho-syntaxiques, syntaxiques)
Interface et outils de recherche sur corpus

Articulation entre théorie et pratique autour des questions de la variation

Feuilles de route pour les ressources et les outils

Programme

9h-9h10	Présentation de l'atelier
9h10-9h30	Création de ressources lexicales pour une langue d'oïl : le parlanjhe	Marie-Helene Lay et Jean-Christophe Dourdet.
9h30-9h55	Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique	Delphine Bernhard et Lucie Steiblé.
9h55-10h15	PICARTEXT : Une ressource informatisée pour la langue picarde	Jean-Michel Eloy, Fanny Martin et Christophe Rey.
10h15-10h40	Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton	Annie Foret, Valérie Bellynck et Christian Boitet.
10h40-11h00	Pause café
11h00-11h25	Feuille de route pour le développement numérique occitan	Benoît Dazéas.
11h25-11h50	Communication sur les travaux de Òsca-Font dubèrta	Dominique Château-Annaud.
11h50-12h15	Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan	Marianne Vergez-Couret et Assaf Urieli.

Dates importantes

Date limite de soumission : 15 avril 2015
Notification aux auteurs : 4 mai 2015
Date limite de soumission des versions définitives : 22 mai 2015
Date de l'atelier : lundi 22 juin 2015

Soumission des articles

Les articles seront rédigés en français pour les francophones, en anglais pour ceux qui ne maîtrisent pas le français. Ils devront suivre le format de TALN-RÉCITAL 2015 et comprendront un maximum de 12 pages pour les articles longs et 6 pages pour les articles courts. Une feuille de style LaTeX et un modèle Word et OpenOffice sont disponibles sur le site web de la conférence (https://taln2015.greyc.fr/soumissionstaln/). Les articles acceptés donneront lieu à une présentation au cours de l’atelier. Les critères de sélection sont les mêmes que ceux définis par TALN 2015 pour les articles de recherche.
Les articles, au format pdf, doivent être déposés à l'adresse
https://easychair.org/conferences/?conf=talare2015

Comité d'organisation

Marianne Vergez-Couret, CLLE-ERSS, Université de Toulouse 2
Delphine Bernhard, LILPA, Université de Strasbourg
Anne-Laure Ligozat, LIMSI-CNRS/ENSIIE
Jean-Michel Eloy, LESCLAP, Université de Picardie
Christophe Rey, LESCLAP, Université de Picardie

Comité de programme

Vincent Berment, INALCO, Paris
Myriam Bras, CLLE-ERSS, Université de Toulouse 2
Alain Dawson, LESCLAP, Université de Picardie
Nuria Gala, LIF, Aix-Marseille Université
Nabil Hathout, CLLE-ERSS, Université de Toulouse 2
Mai Ho Dac, CLLE-ERSS, Université de Toulouse 2
Joseph Mariani, IMMI, LIMSI-CNRS
Jean-Marie Pierrel, ATILF, Université de Lorraine & CNRS
Sophie Rosset, LIMSI-CNRS
Yves Scherrer, LATL, Centre universitaire d'informatique, Université de Genève
Claudia Soria, CNR-ILC, Italie
Amalia Todirascu, LiLPa, Université de Strasbourg
Assaf Urieli, Joliciel & CLLE-ERSS, Université de Toulouse 2
Pascal Vaillant, LIMICS, Université Paris 13

Texte de l'appel en anglais

Call for papers

Agenda

Journée d'études internationale / International workshop "Wanting, Wishing, Desiring"

Le 7 novembre 2025

De 09h00 à 17h00

Salle de séminaires, Villa Brunner

Agenda complet

Actualités

Toutes les actualités