Bonnes pratiques pour la constitution de corpus

Bonnes et mauvaises pratiques lors de la constitution de corpus

Lorsque l'on constitue un corpus, divers événements peuvent survenir, ce à n'importe quelle étape de sa création. On peut faire face à des problèmes d'ordre technique, pratique et bien d'autres encore !

Cette section regroupe les bonnes et mauvaises pratiques lors de la constitution de corpus et différentes expériences qu'ont pu faire des linguistes lors de la constitution de corpus.

 

Check-list du linguiste

(Cliquez pour plus de détail.)

Doit Ne doit pas
Tester divers type de matériel.  Ne pas connaître le matériel approprié à sa tâche. 
 Essayer le matériel choisi.  Se rendre sans préparation sur le lieu d’enregistrement en utilisant l’appareil pour la première fois. 
 Penser à avoir des piles neuves ou charger son appareil s’il fonctionne sur batterie. Oublier de se munir de piles neuves pour l’appareil d’enregistrement ou oublier de le charger. (Voir anecdote)
 Avoir ses documents de collecte de données.  Oublier les documents importants pour la tâche.
   


Avant de partir à la chasse aux données, le linguiste...           

                                  

Doit  

Ne doit pas 

Tester divers type de matériel afin de
trouver LE (THE) matériel adapté à la
situation d’enregistrement !

 

Ne pas connaître le matériel approprié à
sa tâche et risquer un enregistrement de qualité
moindre, choisiriez vous une paire de chaussures
n’étant pas à votre taille ? C’est la même chose !
 


Essayer le matériel choisi pour le
maîtriser comme un pro ou presque ! Vous
avez même le droit de prendre des notes
sur son fonctionnement et les emporter partout avec vous !
Dominez votre matériel, plutôt qu'il ne vous
domine !

                                                                                                                                                                                                                                                     

 Se rendre sans préparation sur le lieu d’enregistrement en utilisant
l’appareil pour la première fois. Jouer
un match de foot sans entraînement, c’est le risque de
blessure ! Pour le linguiste c’est pareil !
 


 

Penser à avoir des piles neuves ou
charger son appareil s’il fonctionne sur
batterie, avant la tâche, pour le nourir en
énergie !

 

Oublier de se munir de piles neuves pour l’appareil
d’enregistrement ou oublier de le charger...Les piles neuves, à ne pas oublier !
Ou avoir un appareil chargé prêt pour des heures et des
heures d’enregistrement, à disposition. Cela peut mener
à de malheureux événements... Comme des
enregistrements sur lesquels on entend des bruits
électriques au point de les voir sur un spectrogramme par exemple !
(Voir anecdote)  


 

Avoir ses documents de collecte de
données et des exemplaires de fiches de
renseignement (récolte des métadonnées)
et consentements éclairés, c’est ce que l’on
appelle sortir bien équipé.

 

Oublier les documents importants pour la tâche et
les consentements,
pas de consentement est égal à pas d’enregistrement !

 

 

 

 

Anecdote 1 : Oublier les piles neuves avant un enregistrement

Le thème de l'étude : L'enregistrement audio de textes lus, afin de réaliser des analyses prosodiques et phonétiques, pour se faire, les étapes sont les suivantes, récolte des données, segmentation automatique grâce à la distinction silence, parole et transcriptions de ce qui a été dit. Le but étant de déposer le corpus sur ortolang pour archivage et partage. Il s'agit d'un corpus libre d'accès : OpenProDat - Open Speech Database

Le matériel utilisé : 

- Enregistreur mobile (Zoom H4N)
- Micro serre-tête (AKG C520) de meilleure qualité audio qu'un micro-cravate et un micro-canon

Le retour d'expérience :

Pour les 3 premiers enregistrements, tout se passe bien. Pourtant, il me vient une angoisse : "je n'ai pas mis de piles neuves... et si elles me lâchaient en plein enregistrement ?" Ni une ni deux, je branche l'enregistreur sur le secteur et je continue ainsi mes enregistrements avec plus d'une vingtaines de personnes. A la fin de la journée, j'ai obtenus trois enregistrements très corrects, et les autres avec un "bruit électrique" (50 Hz) que l'on voit parfaitement bien sur le spectrogramme et que l'on entend également très bien. Pour les sessions suivantes... j'ai utilisé des piles neuves à chaque fois !

 

Spectrogramme normal

Spectrogramme normal

Spectrogramme courant électrique
Spectrogramme courant électrique

Fichier son

Références citées :
Vincent, C. (2015). L’acquisition et le traitement de données multimodales en linguistique : Pratiques et perspectives. Colloque des doctorants et jeunes chercheurs associés du laboratoire MoDyCo (COLDOC) sur ”Dimensions multimodales des pratiques discursives : une perspective actuelle pour les linguistes”. Présenté à Nanterre, France. Consulté à l’adresse https://hal.archives-ouvertes.fr/hal-01225952

 

Partagez nous vos expériences !