Multilinguisme : corpus multilingues et plurilingues
Coordination : Thomas Gaillat
Participant.es :
Ce groupe de travail propose de mettre en contact des chercheurs qui travaillent sur des corpus multilingues et plurilingues, écrits ou oraux, de langues à tradition écrite ou de langues à tradition orale. Il s’agit d’échanger sur les méthodes et les outils qui sont employés dans ces différents domaines ainsi que sur les aspects théoriques privilégiés dans chaque tradition. Nous allons notamment réfléchir ensemble sur les points suivants :
- Constitution de corpus écrits et oraux pour des langues de grande diffusion vs. constitution de corpus oraux pour des langues peu décrites : quels outils, quels annotateurs, quelles priorités de recherche ?
- Exploitation quantitative de corpus massifs vs. exploitation quantitative de corpus réduits de langues peu étudiées : quels modèles statistiques, quelles questions théoriques et quelles méthodes ?
Le groupe a comme objectif d’organiser des formations aux outils de saisie spécifiques ou adaptés aux corpus multilingues et plurilingues ainsi que des formations aux traitements statistiques possibles. Il organise des journées d’étude réunissant les chercheurs travaillant sur les corpus multilingues et plurilingues oraux et écrits. Enfin, le groupe Multilingue, plurilingue, encourage la valorisation de corpus existants par la saisie d’annotations spécifiques au contact de langues.
Axes de travail
Axe de travail 1 – IA, LLMs et leurs usages (annotation, multilinguisme…)
Recensement de modèles multilingues : cas d’usage et citations
Action proposée :
- Produire un guide d’orientation ou de bonnes pratiques
- Annotation automatique de corpus d’apprenants (projet tranSLA + lien avec le réseau thématique RéAL2)
Axe de travail 2 – Recensement de corpus
Actions proposées :
- MàJ de la page CORLI sur les corpus multilingues et insertion d’un lien vers le tableur de recensement d’exemples de corpus dans cette page.
- Réactiver la communauté pour le recensement de corpus multilingues.
Axe de travail 3 – Formations
Actions proposées :
- Création et recensement capsules videos (tutos) – how to: The Digital Humanities Course Registry
- Organisation de formations
- Hackathon (Sorbonne, CERES unité de service: https://ceres.sorbonne-universite.fr/)
- Présentiel
- Formation CLAN au sein du LLCD en sept 2024: https://llcd2024.sciencesconf.org/
- Workshop & atelier formation CLAN au MPI en juin 2024
- Parsing multilingue
- Référencement de ressources de pédagogiques de formation en ling de corpus
Actions passées
Actions 2022
Organisation d’un café CLARIN le 29 avril 2022 : CLARIN Café on Bilingual and Multilingual Corpora.
Le programme est disponible sur le site CLARIN, ainsi que dans les événements CORLI.
Actions 2018
Une journée scientifique s’est tenue le 30 novembre 2018 à l’Université Paris Diderot, intitulée « Analyse cross-lingue et annotation de corpus multilingues parallèles et comparables : tendances actuelles et futures » (org. Natalie Kübler, Maria Zimina, Evangelia Adamou et Antonio Balvet). Le but principal de la journée est de réunir des chercheurs et professionnels issus d’horizons théoriques et de disciplines très variés.
Le programme de cette journée était le suivant:
-
-
Conférence invitée
-
-
Vesna Lušicky (University of Vienna), Tanja Wissik (Austrian Academy of Sciences). Overview of the CLARIN multilingual ressources.
-
-
-
-
-
Conférences suite à une sélection sur résumé :
-
-
Natalia Levshina (Leipzig University). Multilingual parallel corpora and semantic maps: traditional and new approaches.
-
-
-
Evangelia Adamou (CNRS). Endangered languages on a scale of language mixing.
-
-
-
Efstathia Soroli (Université́ de Lille et CNRS) et Cathy Cohen (Université́ Lyon 1 et CNRS). Bilingual Discourse Analysis (BilDA): Research methods in second language acquisition and bilingualism – a manual for transcription, coding and analysis.
-
-
-
Yuming Zhai (CNRS). Construction d’un Corpus Multilingue Annoté en Relations de Traduction.
-
-
-
Monika Chwalczuk (Paris Diderot). Saisir le multimodal : Les défis d’annotation d’un corpus d’interactions interprétées dans les services publics.
-
-
-
Actions 2017
Une journée scientifique s’est tenue le 15 septembre 2017 sur le campus CNRS de Villejuif (org. Evangelia Adamou, Antonio Balvet, Natalie Kübler et Maria Zimina). Cette manifestation a réuni des membres de la communauté scientifique concernés par les problématiques liées à la création et l’analyse de corpus multilingues et plurilingues, écrits et oraux.