On désigne par métadonnées un ensemble d’informations que l’on décide de conserver en plus des données linguistiques à proprement parler, afin de les documenter et de faciliter la réutilisation du corpus par d’autres chercheurs. Ces informations peuvent être très diverses : sources des données, logiciels (et leur version exacte) utilisés pour la collecte ou le traitement des données, informations sur les locuteurs (âge, sexe, langue maternelle…) ou sur la situation de l’acquisition pour des données orales ou multimodales, etc.
Un point très important est que les métadonnées devraient être standardisées, c’est-à-dire exprimées selon un standard international accepté par la communauté scientifique. Comme les pratiques sont, aujourd’hui encore, très hétérogènes, le CORLI mène une action de valorisation des corpus qui vise à finaliser la mise en forme de corpus existants en suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable).
Plus de ressources sur le site du CORLI :
- La page de l’action Finalisation de corpus menée par le CORLI
- Une page dédiée aux métadonnées
- L’outil TEIMETA pour l’édition de métadonnées au format TEI, dans sa version en ligne ou à télécharger