Alignement temporel

L’alignement renvoie à la correspondance temporelle entre deux ressources, par exemple entre l’audio et la transcription, où l’alignement peut se situer au niveau du tour de parole, du groupe intonatif, du mot ou du phonème, ou entre la vidéo et l’annotation (gestes ou langues des signes). L’alignement peut également concerner la correspondance temporelle entre deux flux primaires, comme deux flux vidéo en cas d’utilisation simultanée de deux caméras, pour des prises de vue à partir d’angles différents.

Il existe des outils semi-automatiques permettant d’affiner un alignement au niveau phonétique à partir de la transcription orthographique : voir EasyAlignSailAlign.

Des outils semi-automatiques permettant de segmenter automatiquement des évènements gestuels dans les vidéos commencent à se développer.

La procédure se déroule généralement en plusieurs étapes successives de traitement automatique et de réajustements manuels. Ces logiciels sont implémentés sous forme d’extensions de logiciels d’annotation existants ou sous forme de logiciel autonome possédant des fonctions d’export dans des formats courants.

Plus généralement, l’alignement des données consiste à spécifier une relation entre les unités de chaque type de données. Les alignement peuvent faire référence directement à un signal temporel (les phonèmes sont alignés sur le signal audio) ou à d’autres données. Par exemple, les syllabes sont alignées sur les phonèmes, les unités syntaxiques sur les tokens, etc. Les alignements peuvent être stricts (les frontières des unités doivent être les mêmes) ou flexibles (les frontières doivent être dans une zone proche). Les alignements peuvent être partiels (une partie des unités est alignée).

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle) (