Quels formats peut-on utiliser pour créer un corpus de langage oral ou multimodal ?
Les données de l’oral ou de la multimodalité utilisables aujourd’hui dans les grands corpus doivent être dans des formats qui peuvent être exploités automatiquement. C’est pour cette raison que les formats de type traitement de texte (e.g. Microsoft Word ou OpenOffice) ou plein texte ne peuvent être utilisés pour le stockage et la diffusion. En effet dans ces formats, on ne peut savoir automatiquement quelles parties du corpus correspondent à quoi.
Les seuls formats à considérer sont, soit des formats produits par des logiciels stucturés (CLAN, ELAN, Praat, Transcriber), soit des formats normalisés comme la TEI. D’autres formats pourraient être ajoutés à cette liste qui n’est que provisoire et peut être modifiée avec l’avancée des outils et des techniques.
Formats à retenir:
Formats liés aux outils:
- CLAN (http://dali.talkbank.org/clan/)
- ELAN (https://archive.mpi.nl/tla/elan/download)
- PRAAT (https://www.fon.hum.uva.nl/praat/)
- TRANSCRIBER (http://trans.sourceforge.net ou http://perso.ens-lyon.fr/matthieu.quignard/Transcriber/)
- EXMARALDA (https://exmaralda.org/en/) permet aussi de créer un format TEI
- TRJS (http://ct3.ortolang.fr/trjs/) edition au format TEI
Format générique pour l’échange et la conservation :
TEI: format issu de la Text Encoding Initiative. Ce format présente hélas beaucoup de variantes. La variante dont nous suggèrons l’usage est celle de la norme TEI pour l’oral (). Il est possible de créer des fichiers TEI suivant cette norme avec l’outil Exmaralda ou l’outil de conversion TEICORPO.