Search & Find
Accueil
Accueil   >   Colloques   >   Traitement Automatique des Langues Régionales de France et d'Europe

TALaRE 2015 - Traitement Automatique des Langues Régionales de France et d'Europe

Description

Atelier associé à TALN - 2015 22e conférence sur le Traitement Automatique des Langues Naturelles, Caen, 22-25 juin 2015

Les recherches en traitement automatique des langues peu et moyennement dotées connaissent actuellement un regain d’intérêt à travers la constitution de corpus et de lexiques dans une perspective globale de préservation du patrimoine culturel. Les langues régionales sont généralement à ranger dans cette catégorie, car les ressources électroniques pour ces langues sont rares, peu visibles et sous exploitées, parfois inexistantes. Doter ces langues de ressources électroniques (notamment de corpus écrits, de lexiques et de dictionnaires) est un enjeu considérable pour leur diffusion, leur enseignement, leur sauvegarde, leur normalisation... Il est, entre autres, nécessaire de développer des corpus textuels, les plus représentatifs possibles des usages de la langue, en rassemblant des œuvres écrites de différents genres (littérature, théâtre, poésie, conte, presse...) et, pour certaines langues, en accueillant la variation (dialectale, phonologique, graphique). La seconde étape consiste logiquement à enrichir ces corpus d’annotations.

L'élaboration des corpus annotés pour les langues régionales soulève de nombreuses questions méthodologiques. Il n'est notamment pas toujours possible de transposer directement les modèles existants pour les langues bien dotées, notamment en raison des variations dues en partie à une standardisation moins forte que pour les langues nationales. Les corpus sont également une base nécessaire pour l'élaboration des dictionnaires, lexiques et glossaires. Sur le plan linguistique, les corpus sont nécessaires pour la description des usages réels d'une langue. Et en contre-partie, sur le plan technique, les dictionnaires et les lexiques sont nécessaires pour accompagner l’élaboration des corpus et de leurs annotations (reconnaissance optique de caractères, lemmatisation et analyse morpho-syntaxique). Lorsque ces ressources existent déjà pour une langue ou une variété de langue (dictionnaires, lexiques, glossaires bilingues couplant une langue régionale et une langue nationale), se pose la question de la mutualisation des informations contenues dans ces ressources, de l'enrichissement de ces données avec des informations supplémentaires (phonétiques, morpho-syntaxiques, syntaxiques) et de leur utilisation dans des outils de TAL. Enfin, une fois établis, corpus et lexiques sont nécessaires pour le développement d'outils de traitement automatique des langues (analyse morpho-syntaxique, syntaxique). Il faut alors se poser la question de comment tirer parti au mieux de ces ressources, souvent incomplètes, dans le développement des outils.

Au-delà des difficultés techniques et méthodologiques, il ne faut pas négliger les difficultés plus pragmatiques liées au manque de ressources financières et humaines pour mener à bien la constitution de ressources. Cet atelier a pour but de réunir des chercheurs qui participent à la constitution de ressources linguistiques et d'outils "de base" du TAL pour les langues régionales de France et d’Europe afin de partager nos questionnements et nos méthodologies, de mutualiser nos réflexions et les techniques développées.

Nous appelons à la soumission d’articles autour de la constitution de ressources et d'outils pour des langues régionales ou minoritaires de France et d’Europe (y compris les langues d’Outre Mer). Les propositions pourront concerner des travaux aboutis ou des études préliminaires sur les thématiques suivantes (sans s'y limiter):

  • Ressources :
    • Constitution de corpus écrits et oraux, y compris transcriptions de l’oral
    • Élaboration de lexiques, dictionnaires, glossaires
  • Outils :
    • Outils pour la numérisation, l'océrisation et le codage des textes
    • Annotations linguistiques (manuelle et automatique pour analyses morpho-syntaxiques, syntaxiques)
    • Interface et outils de recherche sur corpus
  • Articulation entre théorie et pratique autour des questions de la variation
  • Feuilles de route pour les ressources et les outils

Programme

9h-9h10 Présentation de l'atelier  
9h10-9h30 Création de ressources lexicales pour une langue d'oïl : le parlanjhe Marie-Helene Lay et  Jean-Christophe Dourdet.
9h30-9h55 Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique Delphine Bernhard et Lucie Steiblé.
9h55-10h15 PICARTEXT : Une ressource informatisée pour la langue picarde Jean-Michel Eloy, Fanny Martin et Christophe Rey.
10h15-10h40 Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton Annie Foret, Valérie Bellynck et Christian Boitet.
10h40-11h00 Pause café
 
11h00-11h25 Feuille de route pour le développement numérique occitan Benoît Dazéas.
11h25-11h50 Communication sur les travaux de Òsca-Font dubèrta Dominique Château-Annaud.
11h50-12h15 Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan Marianne Vergez-Couret et Assaf Urieli.

Dates importantes

  • Date limite de soumission : 15 avril 2015
  • Notification aux auteurs : 4 mai 2015
  • Date limite de soumission des versions définitives : 22 mai 2015
  • Date de l'atelier : lundi 22 juin 2015

Soumission des articles

Les articles seront rédigés en français pour les francophones, en anglais pour ceux qui ne maîtrisent pas le français. Ils devront suivre le format de TALN-RÉCITAL 2015 et comprendront un maximum de 12 pages pour les articles longs et 6 pages pour les articles courts. Une feuille de style LaTeX et un modèle Word et OpenOffice sont disponibles sur le site web de la conférence (https://taln2015.greyc.fr/soumissionstaln/). Les articles acceptés donneront lieu à une présentation au cours de l’atelier. Les critères de sélection sont les mêmes que ceux définis par TALN 2015 pour les articles de recherche.
Les articles, au format pdf, doivent être déposés à l'adresse
https://easychair.org/conferences/?conf=talare2015

Comité d'organisation

  • Marianne Vergez-Couret,  CLLE-ERSS, Université de Toulouse 2
  • Delphine Bernhard,  LILPA, Université de Strasbourg
  • Anne-Laure Ligozat, LIMSI-CNRS/ENSIIE
  • Jean-Michel Eloy,  LESCLAP, Université de Picardie
  • Christophe Rey,  LESCLAP, Université de Picardie

Comité de programme

  • Vincent Berment, INALCO, Paris
  • Myriam Bras, CLLE-ERSS, Université de Toulouse 2
  • Alain Dawson, LESCLAP, Université de Picardie
  • Nuria Gala, LIF, Aix-Marseille Université
  • Nabil Hathout, CLLE-ERSS, Université de Toulouse 2
  • Mai Ho Dac, CLLE-ERSS, Université de Toulouse 2
  • Joseph Mariani, IMMI, LIMSI-CNRS
  • Jean-Marie Pierrel, ATILF, Université de Lorraine & CNRS
  • Sophie Rosset, LIMSI-CNRS
  • Yves Scherrer, LATL, Centre universitaire d'informatique, Université de Genève
  • Claudia Soria, CNR-ILC, Italie
  • Amalia Todirascu, LiLPa, Université de Strasbourg
  • Assaf Urieli, Joliciel & CLLE-ERSS, Université de Toulouse 2
  • Pascal Vaillant, LIMICS, Université Paris 13

Texte de l'appel en anglais

Call for papers

Investissements Avenir
Université de Strasbourg

Flux RSS

Le 25 mai 2018
De 09h00 à 16h30
Salle Ourisson, Institut Le Bel
Le 1 juin 2018
De 09h00 à 17h00

Flux RSS

déc. 6 2018

Le colloque "CE disant, que fait-on ? Aspects grammaticaux et discursifs de ce en français"  aura...

nov. 22 2018

Le 26e congrès du Rassemblement National des Centres de Langues de l'Enseignement Supérieur...