Pourquoi et comment déposer mon corpus ?

Plusieurs raisons incitent à déposer son corpus. D’une part, la constitution d’un corpus est un processus très coûteux ; il est donc important de mutualiser cet effort pour en faire bénéficier d’autres chercheurs ; en effet, il pourrait donner lieu à de nouvelles analyses. D’autre part, les données qui constituent un corpus ont parfois une valeur patrimoniale (par exemple pour la documentation de langues rares) qui les rend précieuses et suffit à rendre souhaitable leur archivage. Enfin, le dépôt des données répond à une problématique de contrôle et d’évaluation de la recherche : tout travail expérimental doit pouvoir être reproduit, et la mise à disposition des corpus (ainsi que celle de leur documentation et éventuellement des outils ayant permis de les analyser) est une condition sine qua non pour assurer cette reproductibilité.

Pour déposer un corpus, il est préférable que ce dernier soit mis en forme d’une façon conforme aux standards internationaux (TEI et autres formats XML adaptés, etc.) et qu’il soit décrit par des métadonnées elles aussi standardisées. Le corpus déposé devrait respecter les principes FAIR :  Findable, Accessible, Interoperable, Reusable. C’est pourquoi le CORLI mène une action qui vise à financer la finalisation de corpus de manière à respecter ces principes, afin que ces derniers puissent être déposés et valorisés.

Le dépôt d’un corpus peut se faire sur des sites spécialisés ; en France, on trouve notamment les sites COCOON et ORTOLANG.

Plus de ressources sur le site du CORLI :