Bonnes et mauvaises pratiques lors de la constitution de corpus
Lorsque l’on constitue un corpus, divers événements peuvent survenir, ce à n’importe quelle étape de sa création. On peut faire face à des problèmes d’ordre technique, pratique et bien d’autres encore !
Cette section regroupe les bonnes et mauvaises pratiques lors de la constitution de corpus et différentes expériences qu’ont pu faire des linguistes lors de la constitution de corpus.
Check-list du linguiste
Doit | Ne doit pas |
Tester divers type de matériel. | Ne pas connaître le matériel approprié à sa tâche. |
Essayer le matériel choisi. | Se rendre sans préparation sur le lieu d’enregistrement en utilisant l’appareil pour la première fois. |
Penser à avoir des piles neuves ou charger son appareil s’il fonctionne sur batterie. | Oublier de se munir de piles neuves pour l’appareil d’enregistrement ou oublier de le charger. (Voir anecdote) |
Avoir ses documents de collecte de données. | Oublier les documents importants pour la tâche. |
Avant de partir à la chasse aux données, le linguiste…
Doit | Ne doit pas |
Tester divers type de matériel afin de trouver LE (THE) matériel adapté à la situation d’enregistrement ! | Ne pas connaître le matériel approprié à sa tâche et risquer un enregistrement de qualité moindre, choisiriez vous une paire de chaussures n’étant pas à votre taille ? C’est la même chose ! |
Essayer le matériel choisi pour le maîtriser comme un pro ou presque ! Vous avez même le droit de prendre des notes sur son fonctionnement et les emporter partout avec vous ! Dominez votre matériel, plutôt qu’il ne vous domine ! | Se rendre sans préparation sur le lieu d’enregistrement en utilisant l’appareil pour la première fois. Jouer un match de foot sans entraînement, c’est le risque de blessure ! Pour le linguiste c’est pareil ! |
Penser à avoir des piles neuves ou charger son appareil s’il fonctionne sur batterie, avant la tâche, pour le nourrir en énergie ! | Oublier de se munir de piles neuves pour l’appareil d’enregistrement ou oublier de le charger… Les piles neuves, à ne pas oublier ! Ou avoir un appareil chargé prêt pour des heures et des heures d’enregistrement, à disposition. Cela peut mener à de malheureux événements… Comme des enregistrements sur lesquels on entend des bruits électriques au point de les voir sur un spectrogramme par exemple ! (Voir anecdote) |
Avoir ses documents de collecte de données et des exemplaires de fiches de renseignement (récolte des métadonnées) et consentements éclairés, c’est ce que l’on appelle sortir bien équipé. | Oublier les documents importants pour la tâche et les consentements, pas de consentement est égal à pas d’enregistrement ! |
Anecdote 1 : Oublier les piles neuves avant un enregistrement
Le thème de l’étude : L’enregistrement audio de textes lus, afin de réaliser des analyses prosodiques et phonétiques.
Pour se faire, les étapes sont les suivantes :
- récolte des données
- segmentation automatique grâce à la distinction silence parole et transcriptions de ce qui a été dit
Le but étant de déposer le corpus sur Ortolang pour archivage et partage. Il s’agit d’un corpus libre d’accès : OpenProDat – Open Speech Database
Le matériel utilisé :
- Enregistreur mobile (Zoom H4N)
- Micro serre-tête (AKG C520) de meilleure qualité audio qu’un micro-cravate et un micro-canon
Le retour d’expérience :
Pour les 3 premiers enregistrements, tout se passe bien. Pourtant, il me vient une angoisse : « je n’ai pas mis de piles neuves… et si elles me lâchaient en plein enregistrement ? » Ni une ni deux, je branche l’enregistreur sur le secteur et je continue ainsi mes enregistrements avec plus d’une vingtaines de personnes. A la fin de la journée, j’ai obtenus trois enregistrements très corrects, et les autres avec un « bruit électrique » (50 Hz) que l’on voit parfaitement bien sur le spectrogramme et que l’on entend également très bien. Pour les sessions suivantes… j’ai utilisé des piles neuves à chaque fois !
Références citées :
Vincent, C. (2015). L’acquisition et le traitement de données multimodales en linguistique : Pratiques et perspectives. Colloque des doctorants et jeunes chercheurs associés du laboratoire MoDyCo (COLDOC) sur ”Dimensions multimodales des pratiques discursives : une perspective actuelle pour les linguistes”. Présenté à Nanterre, France. Consulté à l’adresse https://hal.archives-ouvertes.fr/hal-01225952