Formats de l’oral et de la multimodalité

Quels formats peut-on utiliser pour créer un corpus de langage oral ou multimodal ?

Les données de l’oral ou de la multimodalité utilisables aujourd’hui dans les grands corpus doivent être dans des formats qui peuvent être exploités automatiquement. C’est pour cette raison que les formats de type traitement de texte (e.g. Microsoft Word ou OpenOffice) ou plein texte ne peuvent être utilisés pour le stockage et la diffusion. En effet dans ces formats, on ne peut savoir automatiquement quelles parties du corpus correspondent à quoi.

Les seuls formats à considérer sont, soit des formats produits par des logiciels stucturés (CLAN, ELAN, Praat, Transcriber), soit des formats normalisés comme la TEI. D’autres formats pourraient être ajoutés à cette liste qui n’est que provisoire et peut être modifiée avec l’avancée des outils et des techniques.

Formats à retenir:

Formats liés aux outils:

Format générique pour l’échange et la conservation :

TEI: format issu de la Text Encoding Initiative (https://tei-c.org/). Ce format présente hélas beaucoup de variantes. La variante dont nous suggèrons l’usage est celle de la norme TEI pour l’oral (). Il est possible de créer des fichiers TEI suivant cette norme avec l’outil Exmaralda (voir ci-dessus) ou l’outil de conversion TEICORPO (http://ct3.ortolang.fr/teicorpo/).