Glossaire

A | B | C | D | E | G | I | L | M | N | O | P | R | S | T | U | V

Il s’agit de modèles à constituer préalablement à l’annotation, rassemblant et éventuellement documentant les pistes à annoter, ainsi que les relations de filiation, d’alignement temporel, d’association ou de subdivision entre ces pistes. Ces schémas servent à définir et à stabiliser un ensemble d’annotations indépendamment du nombre d’annotateurs et du nombre de corpus. Ceci d’une part parce qu’ils constituent des modèles, « templates » ou grilles d’annotation généralement applicables directement sur les données primaires (texte, son, image, vidéo) via les logiciels d’annotation. D’autre part, parce que quelle que soit leur dénomination — pistes d’annotations, tiers ou tires —, les items associés à chaque pistes peuvent constituer un Vocabulaire Contrôlé (VC) restreint, défini et univoque, utilisé a priori de la même façon par différents annotateurs sur plusieurs enregistrements.

La constitution de ces schémas d’annotation doit prendre en compte de multiples paramètres. Citons les principaux : les questions de recherche posées, les types de données et la manière dont celles-ci ont été captées ou obtenues, les possibilités offertes par le logiciel d’annotation comprenant également les modalités de requête et, plus généralement, la reproductibilité de ces annotations (accord inter-annotateurs). Dans l’idéal, tout schéma d’annotation constitue la phase d’opérationnalisation entre les hypothèses de recherche, d’une part, et les données à disposition, d’autre part. A ce titre, un travail minutieux, parfois long et collectif, préside à la constitution du schéma d’annotation avant toute annotation, même si des aller-retour permettent d’éprouver le modèle.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Toute analyse repose sur une étape de segmentation ayant pour objectif d'identifier des unités de traitement (qui ne seront pas nécessairement conservées pour l'analyse). On segmente ainsi généralement le signal audio en unités inter-pausales (segments de parole entre des pauses de plus de 200ms) ou la transcription en tokens (unités lexicales pouvant être complexes). La segmentation peut concerner des domaines et des niveaux différents : segmentation en phrases, en unités de discours, etc. La ponctuation peut ici jouer un rôle important à l'écrit, mais également par une transposition de cette notion à l'oral, c'est-à-dire par un balisage de la transcription (qu'il soit basé sur des critères prosodiques, syntaxiques ou pragmatiques).

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Pratique d’exploration textuelle consistant à repérer automatiquement les séquences qui se répètent significativement dans un même texte, ou d’un texte à l’autre au sein d’un corpus (autres termes liés: motifs, phraséologies, idiomes, etc.).

Quelques outils : Lexico3, Le Trameur, Hyperbase

Référentiel commun défini par un organisme spécialisé, favorisant l'interopérabilité des ressources. En matière de nomenclature et de vocabulaire contrôlé, le consortium TEI et l'ISO (Organisation internationale de normalisation) remplissent cette fonction. En matière de métadonnées pour documenter des ressources linguistique numériques, le consortium européen CLARIN oeuvre pour la définition d'un standard modulaire plus souple et répondant mieux aux besoins spécifiques au domaine. les conventions (de transcription ou d'annotation) n'ont pas le statut officiel des standards, mais peuvent s'imposer dans une sphère plus ou moins large et assurer partiellement ce rôle.

Les enregistrements analogiques ou numériques doivent être stockés en temps réel sur un support. Dans le cas de son analogique, on pensera souvent aux bandes magnétiques et cassettes audio, mais les disques vinyles sont aussi des supports sonores analogiques. Dans le cas d’images ou de vidéos, on pensera à tous les types de cassettes magnétiques : VHS, Betamax, U-Matic, HI8 pour citer les plus connus. Des supports analogiques existent pour certains instruments de mesure. Lorsque l’on parle de support numérique, on fait universellement référence à des mémoires pouvant être connectées sur un ordinateur. Les principaux types aujourd’hui sont le disque dur et la mémoire dite permanente, utilisée dans les clés USB, les disques SSD et les cartes de type SD, Memory Stick, XD. A noter qu’il existe des supports numériques sur cassette, notamment les DAT pour l’audio ou le DV pour la vidéo ou pour certaines sauvegardes informatiques.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)