Multilingue

Groupe projet 3 : Corpus multilingues et plurilingues

Responsables : Antonio Balvet (Université de Lille), Natalie Kübler (Université Paris Diderot) et Maria Zimina (Université Paris Diderot)

Ce groupe de travail propose de mettre en contact des chercheurs qui travaillent sur des corpus multilingues et plurilingues, écrits ou oraux, de langues à tradition écrite ou de langues à tradition orale. Il s’agit d’échanger sur les méthodes et les outils qui sont employés dans ces différents domaines ainsi que sur les aspects théoriques privilégiés dans chaque tradition. Nous allons notamment réfléchir ensemble sur les points suivants :

·     Constitution de corpus écrits et oraux pour des langues de grande diffusion vs. constitution de corpus oraux pour des langues peu décrites : quels outils, quels annotateurs, quelles priorités de recherche ?

·     Exploitation quantitative de corpus massifs vs. exploitation quantitative de corpus réduits de langues peu étudiées : quels modèles statistiques, quelles questions théoriques et quelles méthodes ?

Le groupe a comme objectif d’organiser des formations aux outils de saisie spécifiques ou adaptés aux corpus multilingues et plurilingues ainsi que des formations aux traitements statistiques possibles. Il organise des journées d’étude réunissant les chercheurs travaillant sur les corpus multilingues et plurilingues oraux et écrits. Enfin, le groupe Multilingue, plurilingue, encourage la valorisation de corpus existants par la saisie d’annotations spécifiques au contact de langues.