Bonnes pratiques pour la constitution de corpus

Bonnes et mauvaises pratiques lors de la constitution de corpus

Lorsque l’on constitue un corpus, divers événements peuvent survenir, ce à n’importe quelle étape de sa création. On peut faire face à des problèmes d’ordre technique, pratique et bien d’autres encore !

Cette section regroupe les bonnes et mauvaises pratiques lors de la constitution de corpus et différentes expériences qu’ont pu faire des linguistes lors de la constitution de corpus.

Check-list du linguiste

DoitNe doit pas
Tester divers type de matériel. Ne pas connaître le matériel approprié à sa tâche. 
Essayer le matériel choisi. Se rendre sans préparation sur le lieu d’enregistrement en utilisant l’appareil pour la première fois. 
Penser à avoir des piles neuves ou charger son appareil s’il fonctionne sur batterie.Oublier de se munir de piles neuves pour l’appareil d’enregistrement ou oublier de le charger. (Voir anecdote)
Avoir ses documents de collecte de données.Oublier les documents importants pour la tâche.

Avant de partir à la chasse aux données, le linguiste…           

Doit   Ne doit pas 
Tester divers type de matériel afin de trouver LE (THE) matériel adapté à la situation d’enregistrement !Ne pas connaître le matériel approprié à sa tâche et risquer un enregistrement de qualité moindre, choisiriez vous une paire de chaussures n’étant pas à votre taille ? C’est la même chose !
 

 
Essayer le matériel choisi pour le maîtriser comme un pro ou presque ! Vous avez même le droit de prendre des notes sur son fonctionnement et les emporter partout avec vous ! Dominez votre matériel, plutôt qu’il ne vous domine !

Se rendre sans préparation sur le lieu d’enregistrement en utilisant l’appareil pour la première fois. Jouer un match de foot sans entraînement, c’est le risque de blessure ! Pour le linguiste c’est pareil !

Penser à avoir des piles neuves ou charger son appareil s’il fonctionne sur batterie, avant la tâche, pour le nourrir en énergie !
Oublier de se munir de piles neuves pour l’appareil
d’enregistrement ou oublier de le charger… Les piles neuves, à ne pas oublier !
Ou avoir un appareil chargé prêt pour des heures et des
heures d’enregistrement, à disposition. Cela peut mener
à de malheureux événements… Comme des enregistrements sur lesquels on entend des bruits électriques au point de les voir sur un spectrogramme par exemple !
(Voir anecdote)  

Avoir ses documents de collecte de données et des exemplaires de fiches de renseignement (récolte des métadonnées) et consentements éclairés, c’est ce que l’on appelle sortir bien équipé.
Oublier les documents importants pour la tâche et les consentements, pas de consentement est égal à pas d’enregistrement !

 

Anecdote 1 : Oublier les piles neuves avant un enregistrement

Le thème de l’étude : L’enregistrement audio de textes lus, afin de réaliser des analyses prosodiques et phonétiques.

Pour se faire, les étapes sont les suivantes :

  • récolte des données
  • segmentation automatique grâce à la distinction silence parole et transcriptions de ce qui a été dit

Le but étant de déposer le corpus sur Ortolang pour archivage et partage. Il s’agit d’un corpus libre d’accès : OpenProDat – Open Speech Database

Le matériel utilisé : 

  • Enregistreur mobile (Zoom H4N)
  • Micro serre-tête (AKG C520) de meilleure qualité audio qu’un micro-cravate et un micro-canon

Le retour d’expérience :

Pour les 3 premiers enregistrements, tout se passe bien. Pourtant, il me vient une angoisse : « je n’ai pas mis de piles neuves… et si elles me lâchaient en plein enregistrement ? » Ni une ni deux, je branche l’enregistreur sur le secteur et je continue ainsi mes enregistrements avec plus d’une vingtaines de personnes. A la fin de la journée, j’ai obtenus trois enregistrements très corrects, et les autres avec un « bruit électrique » (50 Hz) que l’on voit parfaitement bien sur le spectrogramme et que l’on entend également très bien. Pour les sessions suivantes… j’ai utilisé des piles neuves à chaque fois !

Spectrogramme normal
Spectrogramme courant électrique
Fichier audio

Références citées :
Vincent, C. (2015). L’acquisition et le traitement de données multimodales en linguistique : Pratiques et perspectives. Colloque des doctorants et jeunes chercheurs associés du laboratoire MoDyCo (COLDOC) sur ”Dimensions multimodales des pratiques discursives : une perspective actuelle pour les linguistes”. Présenté à Nanterre, France. Consulté à l’adresse https://hal.archives-ouvertes.fr/hal-01225952

Partagez nous vos expériences !