Les corpus de langage sont des données incontournables des travaux de recherche dans de nombreuses disciplines comme la linguistique, la littérature, l’histoire, la psychologie, l’anthropologie. Dans ces travaux, on est amené à étayer ses démonstrations sur la base de corpus, à présenter des extraits de corpus comme exemples ou éléments de discussion scientifique, ou encore à fonder ses descriptions et ses modèles sur des corpus. Le lien entre les publications scientifiques utilisant les corpus et les corpus eux-mêmes est extrêmement fort, l’ensemble publication/corpus formant souvent une unité indivisible dans la recherche scientifique.
Or, il est encore rare que les données de langage formant ces corpus et utilisées pour asseoir les analyses soient partagées et quand elles le sont, qu’elles soient liées aux publications scientifiques et traitées elles-mêmes comme partie intégrante de ces publications.
Le projet CORPUCIT a pour but de permettre l’édition de textes scientifiques contenant des citations ou des extraits pointant directement (par un hyperlien) sur des corpus ou des extraits de corpus de langage. Le projet permettra aussi l’édition de corpus pour les structurer en exemples ou en citations afin de leur donner un statut scientifique clair et de les intégrer pleinement à la fois dans le processus scientifique et dans le champ de la science ouverte.
Il s’agit donc :
1- A partir de corpus, de permettre leur édition pour générer des identifiants pérennes (IDP) sur des parties de ces corpus et de construire des exemples ou citations extraites du corpus. Les IDP seront basés sur les standards existants de diffusion de données ouvertes.
Les outils seront des services Web et seront libres, ce qui leur permettra d’être intégrés dans d’autres sites et disponibles pour d’autres services. Pour les corpus de format connus (TEI), il sera possible de créer des IDP pour des sous-parties de documents. Pour les autres formats, les IDP pointeront sur des documents complets.
Au-delà de la création d’un IDP, l’outil permettra d’éditer les extraits ou les citations, et d’y associer toutes les métadonnées et informations complémentaires disponibles en fonction des besoins du chercheur. Pour les formats de corpus connus, il sera possible de visualiser la partie de corpus correspondante.
2- d’utiliser les IDP comme une citation dans les écrits scientifiques ou dans toute présentation de document sur Internet pour pointer sur les corpus et les extraits. Le mécanisme de citation respectera le format standard des citations scientifiques et les citations pourront donc être utilisées par des outils de gestion de citations comme par exemple Zotero. Cela donnera aux corpus un statut beaucoup plus clair de livrable scientifique et permettra aux chercheurs de valoriser la conception, la collecte et le partage de corpus comme une activité scientifique à part entière.