Balisage

Le balisage de la transcription consiste à ajouter des balises de segmentation ou de parenthèsage du texte. Il peut par exemple s’agir de balises xml définissant une structure de constituants comme dans certains treebanks syntaxiques.

Cela s’oppose à une annotation séparée Annotation déportée (stand-off annotation) où les annotations sont dans des fichiers séparés et alignés sur le temps ou sur la transcription par une indexation des tokens de la transcription.

Il est recommandé d’avoir éventuellement un balisage léger de la transcription sans prétention théorique excessive (équivalent à une ponctuation à l’écrit) facilitant la lecture pour les utilisateurs et les traitements automatiques et de séparer toutes les annotations de plus haut niveau.