Projets CORLI 2022-2025

Projet annotation

La transcription et l’annotation de corpus sont des opérations qui sont au cœur des humanités numériques et la question de l’annotation collaborative de corpus est au cœur du nouveau projet CORLI.

Trois axes sont actuellement privilégiés:

  • la mise à disposition d’une plateforme de transcription et d’annotation simple des données langagières – livrable réalisé dans le cadre du projet Palamède, issu d’une collaboration initiée en 2020-2021 entre la MSH Lorraine, CORLI, Huma-Num, l’Atilf et Lit&art  et différents concepteurs d’outils de transcription, à commencer par TACT;
  • la mise à disposition d’une plateforme d’annotation de haut niveau avec des fonctionnalités d’active learning, en collaboration avec l’équipe d’Inception (TU Darmstadt) avec laquelle nous avons déjà commencé de travailler en 2020;
  • une ressource collaborative d’annotation en classe sur le modèle de GUM (https://corpling.uis.georgetown.edu/gum/), à laquelle participent les laboratoires CLLE, Loria, Lidilem et BCL.

Projet citation

Une fois que les corpus sont dans des formats FAIR, ils ont pour but d’être utilisés et réutilisés pour la recherche ouverte. Le projet CITATION a pour but de créer des outils utilisateurs permettant de créer et d’utiliser des citations de corpus ou d’extraits de corpus. Les citations elles-mêmes suivront les standards existants ou proposés par un institut comme RDA (Research Data Alliance). Les outils créés permettront de:

  • sélectionner dans des corpus déposés ou dans l’Open French Corpus des emplacements constituant un extrait de corpus
  • créer des pages web pérennes permettant de visualiser ou présenter un corpus ou un extrait de corpus (soit sélectionné précédemment, soit manuellement inséré)
  • générer des références bibliographiques pointant sur les pages web pérennes et insérées dans le corps et dans la partie bibliographie d’un texte scientifique (aux formats RIS, BibTex, etc. et pouvant donc être utilisées dans un outil comme Zotero).

Ce travail s’intègre dans la philosophie FAIR, de la science ouverte et de l’exploitation des data papers. Il permettra d’améliorer l’accès et la visibilité des travaux de création et de dépôt de corpus.

Une présentation plus précise du projet et de ses objectifs peut être téléchargée ici.

Projet Open French Corpus

Ce projet a pour objectif de centraliser les corpus de Français déjà existants et issus de divers projets, tous validés et normalisés par la communauté et de les mettre à disposition dans un espace commun avec un outillage approprié pour les utiliser. Ce projet comporte trois phases pouvant se dérouler en parallèle:

  • identifier, rassembler les corpus existants ainsi que les méthodes, techniques et formats utilisés pour les constituer
  • déterminer un noyau minimum de format, de qualité et de préparation des corpus devant être rendus disponible, présentation d’une chaîne de traitement permettant de normaliser de nouveaux corpus ou de mettre à niveau d’anciens corpus
  • rendre disponible les corpus, en téléchargement, en recherche plein texte, en recherche outillée

Tous les projets CORLI suivent une même politique qui est d’utiliser des outils ou des données existantes et d’éviter au plus le développement de technologies à partir de zéro. Au contraire, CORLI s’attache à mieux faire connaître les technologies existantes et à créer des ponts (au besoin en acceptant de faire des développements nécessaires) ou de la documentation pour les rendre disponibles ou mieux les exploiter.