GP3 – Multilingue

Groupe projet 3 : Corpus multilingues et plurilingues

Responsables : Antonio Balvet (Université de Lille), Natalie Kübler (Université Paris Diderot) et Maria Zimina (Université Paris Diderot)

Ce groupe de travail propose de mettre en contact des chercheurs qui travaillent sur des corpus multilingues et plurilingues, écrits ou oraux, de langues à tradition écrite ou de langues à tradition orale. Il s’agit d’échanger sur les méthodes et les outils qui sont employés dans ces différents domaines ainsi que sur les aspects théoriques privilégiés dans chaque tradition. Nous allons notamment réfléchir ensemble sur les points suivants :

·     Constitution de corpus écrits et oraux pour des langues de grande diffusion vs. constitution de corpus oraux pour des langues peu décrites : quels outils, quels annotateurs, quelles priorités de recherche ?

·     Exploitation quantitative de corpus massifs vs. exploitation quantitative de corpus réduits de langues peu étudiées : quels modèles statistiques, quelles questions théoriques et quelles méthodes ?

Le groupe a comme objectif d’organiser des formations aux outils de saisie spécifiques ou adaptés aux corpus multilingues et plurilingues ainsi que des formations aux traitements statistiques possibles. Il organise des journées d’étude réunissant les chercheurs travaillant sur les corpus multilingues et plurilingues oraux et écrits. Enfin, le groupe Multilingue, plurilingue, encourage la valorisation de corpus existants par la saisie d’annotations spécifiques au contact de langues.

Actions 2017

Une journée scientifique s’est tenue le 15 septembre 2017 sur le campus CNRS de Villejuif (org. Evangelia Adamou, Antonio Balvet, Natalie Kübler et Maria Zimina). Cette manifestation a réuni des membres de la communauté́́ scientifique concernés par les problématiques liées à la création et l’analyse de corpus multilingues et plurilingues, écrits et oraux. 

Actions 2018

Une journée scientifique s’est tenue le 30 novembre 2018 à l’Université́ Paris Diderot, intitulée « Analyse cross-lingue et annotation de corpus multilingues parallèles et comparables : tendances actuelles et futures » (org. Natalie Kübler, Maria Zimina, Evangelia Adamou et Antonio Balvet). Le but principal de la journée est de réunir des chercheurs et professionnels issus d’horizons théoriques et de disciplines très variés.

Le programme de cette journée était le suivant:

  • Conférence invitée
    • Vesna Lušicky (University of Vienna), Tanja Wissik (Austrian Academy of Sciences). Overview of the CLARIN multilingual ressources.
  • Conférences suite à une sélection sur résumé :
    • Natalia Levshina (Leipzig University). Multilingual parallel corpora and semantic maps: traditional and new approaches.
    • Evangelia Adamou (CNRS). Endangered languages on a scale of language mixing.
    • Efstathia Soroli (Université́ de Lille et CNRS) et Cathy Cohen (Université́ Lyon 1 et CNRS). Bilingual Discourse Analysis (BilDA): Research methods in second language acquisition and bilingualism – a manual for transcription, coding and analysis.
    • Yuming Zhai (CNRS). Construction d’un Corpus Multilingue Annoté en Relations de Traduction.
    • Monika Chwalczuk (Paris Diderot). Saisir le multimodal : Les défis d’annotation d’un corpus d’interactions interprétées dans les services publics.