Les données utilisées en linguistique de corpus peuvent être de différentes natures : données écrites ou orales, mais aussi vidéos, captures de mouvements et d’oculométrie, etc. L’acquisition de données en vue de constituer un corpus doit être soigneusement préparée en amont et la méthode employée doit être bien définie et documentée afin d’assurer une certaine traçabilité. Il faudra notamment se poser la question du matériel nécessaire (dans le cas d’enregistrements), des outils à mobiliser, et des métadonnées à associer aux données collectées.
Plus d’informations sur le site du CORLI :
- La page Bonnes pratiques pour la constitution de corpus recense les bonnes et les mauvaises pratiques lors de la constitution d’un corpus
- Plusieurs formations dédiées à la constitution de corpus, notamment multimodaux, ont été organisées au CORLI, elles sont répertoriées ici : Constitution de corpus – Formations et supports