Glossaire

A | B | C | D | E | G | I | L | M | N | O | P | R | S | T | U | V

Mise en parallèle graphique de deux états d’un même texte (e.g. un texte et sa traduction, un texte produit en T1 et sa version ultérieure, produite en T2, etc.).

L'alignement renvoie à la correspondance temporelle entre deux ressources, par exemple entre l'audio et la transcription, où l'alignement peut se situer au niveau du tour de parole, du groupe intonatif, du mot ou du phonème, ou entre la vidéo et l'annotation (gestes ou langues des signes). L'alignement peut également concerner la correspondance temporelle entre deux flux primaires, comme deux flux vidéo en cas d'utilisation simultanée de deux caméras, pour des prises de vue à partir d'angles différents.

Il existe des outils semi-automatiques permettant d'affiner un alignement au niveau phonétique à partir de la transcription orthographique : voir EasyAlign, SailAlign.

Des outils semi-automatiques permettant de segmenter automatiquement des évènements gestuels dans les vidéos commencent à se développer.

La procédure se déroule généralement en plusieurs étapes successives de traitement automatique et de réajustements manuels. Ces logiciels sont implémentés sous forme d'extensions de logiciels d'annotation existants ou sous forme de logiciel autonome possédant des fonctions d'export dans des formats courants.

Plus généralement, l'alignement des données consiste à spécifier une relation entre les unités de chaque type de données. Les alignement peuvent faire référence directement à un signal temporel (les phonèmes sont alignés sur le signal audio) ou à d'autres données. Par exemple, les syllabes sont alignées sur les phonèmes, les unités syntaxiques sur les tokens, etc. Les alignements peuvent être stricts (les frontières des unités doivent être les mêmes) ou flexibles (les frontières doivent être dans une zone proche). Les alignements peuvent être partiels (une partie des unités est alignée).

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Dans ce wiki, nous utilisons le terme "annotation", au sens large, pour désigner la documentation de sous-parties d'enregistrements (phases, mots, tour de parole...), en opposition au terme "métadonnées", qui désigne la documentation d'un enregistrement dans son ensemble.

Dans un sens plus restreint, le terme "annotation", qui est un codage d'informations diverses (glose, gestes, balisage, analyse morpho-syntaxique,...), s'oppose à "transcription", qui est le codage orthographique ou phonétique de la parole qui a été produite.

  • Annotation déportée (stand-off annotation) : Recommandation pour encoder les annotations séparément des données primaires. D'une façon générale, chaque type d'annotation (prosodique, morphologique syntaxique, prosodique, etc.) est encodée dans un fichier spécifique. Les relations entre les données de différents types sont indiquées par le système d'alignement. Cette pratique permet de travailler sur chaque type de donnée indépendamment des autres.
  • Annotation morpho-syntaxique (POS-tagging) : L'annotation syntaxique consiste à associer à chaque token un ensemble d'informations qui contient a minima la partie du discours (N, V, Det, etc.) et un ensemble de traits (pluriel, masculin, etc.). Ces traits peuvent être très détaillés et contenir également des informations de sous-catégorisation ou des traits sémantiques. D'autres informations comme le lemme, la forme phonétique, la fréquence, etc. peuvent également être indiquées.
  • Annotation syntaxique (parsing) : L'annotation syntaxique consiste à ajouter des informations sur la forme d'une structure syntaxique représentant les unités syntaxiques et les relations qui les lient. On distingue l'annotation superficielle de l'annotation profonde. La première consiste à repérer des chunks, ou séquences de tokens appartenant à un même groupe, sans emboîtement, ni structure hiérarchique. Par exemple, la séquence Det+N constituera un chunk nominal. L'annotation en structures syntaxiques profondes consiste à associer une véritable structure syntaxique à un énoncé. On utilise généralement des annotations en constituants ou en dépendances. Les corpus annotés en syntaxe sont généralement appelés des treebanks.
  • Bien d'autres annotations sont possibles : prosodie, entités nommées, chaînes de conférence, rôles thématiques, relations de discours entre unités discursives, désambiguïsation lexicale, émotions, opinions, etc. Voir le cas de l'annotation des langues des signes que nous détaillons.

Quelques outils : Nooj, Glozz, Analec, Le Trameur, The Sketch Engine

A l'heure actuelle, l'annotation des langues des signes consiste généralement à 1) définir un ensemble de pistes d'annotations qui vont permettre d'annoter plusieurs ou l'ensemble des articulateurs mobilisés en LS (buste, épaules, bras, mains, tête, regard, joues, sourcils, bouche), 2) segmenter temporellement la production en unités, 3) identifier ces unités à l'aide de catégories qui dépendent de l'approche choisie (annotation de la forme ou de la fonction) ou à l'aide de gloses. Généralement, une piste supplémentaire comporte une traduction approchée en français écrit.

Problématique de la transcription de la LS : Il existe divers systèmes spécifiques pour la notation des LS, dont les deux principaux sont HamNoSys et SignWriting. HamNoSys est un système qui se veut phonétique et qui permet de décrire la forme des signes conventionnalisés (voir unité gestuelle) selon cinq paramètres (configuration, emplacement, mouvement, orientation, mimique). Il est monolinéaire et existe sous forme d'une police de caractères qui peut être utilisée dans les logiciels d'annotation ELAN et iLex. Il est d’une relative efficacité pour la représentation de signes isolés mais ne permet pas de représenter le discours en LS, caractérisé par une exploitation massive de l’espace et l’implication simultanée dans la construction du sens des différentes composantes corporelles. SignWriting a été conçu au départ pour permettre l'écriture des LS. Il propose une représentation multilinéaire et en partie analogique. Il fait notamment depuis une décennie l’objet d’expérimentations prometteuses pour la transcription du discours en LS italienne. Cependant, la non standardisation de ses règles d’écriture (orthographie) d’une part, les difficultés de son implémentation informatique d’autre part, en limitent, à ce jour, l’utilisation pour la transcription des corpus de LS au sein des logiciels d'annotation. Ainsi, il n'existe pas à ce jour de système permettant de transcrire les langues des signes.

Annotation par gloses (Gloss-based notation) : Expression consacrée dans le champ international des recherches linguistiques sur les langues des signes (LS) pour désigner les pratiques consistant à représenter le discours en LS par l’écrit d’une langue vocale (LV) (la LV du pays hébergeant la LS et/ou une LV internationale).

Base de la majorité des annotations de corpus de LS jusqu'à maintenant, cette modalité de représentation y est le plus souvent utilisée dès la première piste, alignée sur le signal. Peu standardisés, variant selon les chercheurs et les pays, les modes de recours à la LV écrite y sont hétérogènes, allant de l’étiquetage des unités LS par un (parfois 2 ou 3) mots de la LV —ce qui dans le champ est appelé « glose »— (ex. CHEVAL, pour le signe LS signifiant « cheval ») à l’usage de divers types d’abréviations porteuses d’informations formelles, catégorielles et/ou morpho-syntaxiques (ex : IX1, pour un pointage manuel pronom de 1ère personne).

ID-Gloss : Forme d'annotation par gloses qui tend à devenir le standard actuel. Dans le contexte de l’annotation de corpus de discours en langue des signes (LS), l’ID-Gloss (de l’anglais Identifying Gloss, cf. Johnston 2001) est un mot de la langue vocale annotatrice (choisie par l’annotateur) utilisé de manière systématisée et consistante pour labelliser un signe (voir unité gestuelle) au sein d’un corpus, abstraction faite des variations sémantiques contextuelles et des variations morphologiques et morpho-syntaxiques de ce signe. L’ID-Glose prétend en effet renvoyer à la forme lemmatisée (lemme, ou lexème, selon les terminologies, ou encore forme de citation) du signe (type vs token). Même si le choix du mot de la LV est motivé par sa proximité sémantique avec le signe, l’ID-Gloss n’est pas censée, à quelque titre que ce soit, être une traduction de ce signe.

L’établissement et l’assignation d’ID-Gloss requièrent que la LS annotée par leur biais ait fait l’objet d’une lemmatisation (sur les débats relatifs aux procédures de lemmatisation et d’assignation des ID-Gloses, voir notamment Johnston 2008, 2011 et Konrad 2011).

L’utilisation d’ID-Gloss dans l’annotation appuyée sur des logiciels d’annotation multimédia comme ELAN ou iLex, qui nécessite l’association à une base de données lexicales consistante et évolutive, vise à permettre une annotation régulière et homogène, permettant des requêtes significatives.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

L’annotation des langues peu décrites comporte au minimum une glose morphosyntaxique et une traduction libre. Chaque morphème (lexical ou grammatical) est associé à une étiquette correspondant à une catégorie grammaticale (ex. futur, pluriel, antipassif, etc.) et/ou à une traduction (pour les lexèmes). Par exemple: “il a fini” :

il SBJ.3SG.M

a have.PRS.3SG

fini finish.PTCP.PST

Traduction libre : “he has finished”.

Les étiquettes sont abrégées selon des standards en cours d’élaboration. Par exemple ici: SBJ = sujet, SG = singulier, M = masculin, PRS= présent, PTCP = participe, PST = passé.

Une syntaxe de l’annotation morphosyntaxique est également nécessaire, et en cours de standardisation. Par exemple, le signe “=” est utilisé pour les frontières de clitiques, le signe “\” pour les alternances morphophonologiques (ablaut, mutation, alternance tonale etc.), le signe “.” sépare plusieurs étiquettes grammaticales lorsqu’elles correspondent à un seul morphème dans la langue analysée.

Des propositions ont été faites dans le cadre de divers projets, les plus abouties étant les Leipzig Glossing Rules (lien sur : http://www.eva.mpg.de/lingua/resources/glossing-rules.php) et les CorpAfroAs Glossing Rules (lien sur: http://corpafroas.tge-adonis.fr/glosses.html).

L'anonymisation consiste à retirer des informations par lesquelles des individus pourraient être reconnus, dans la perspective de diffuser des données sans porter atteinte à la vie privée. Cette opération peut concerner les descripteurs pour ne pas identifier un participant ou un lieu qui rendrait identifiables les participants, le signal audio ou vidéo, la transcription avec des données personnelles comme une adresse, un numéro de téléphone ou un nom propre. Plutôt que d'effacer simplement des portions de signal, il existe des procédures de masquage/filtrage qui rendent les portions sensibles inintelligibles, mais analysables sous certains aspects (ex. analyse prosodique).

Pour les données visuo-gestuelles, de Langue des signes (sign language)notamment, l’anonymisation (par exemple par floutage) reste problématique, le regard et les expressions faciales étant porteurs d’informations linguistiques majeures.

Voir Anonymisation de corpus réutilisables, Reffay et Teutsch, 2000 et Script PRAAT d'anonymisation de fichiers sonores.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Au sens large, il s'agit de gérer le cycle de vie de l'information qui couvre une période allant de sa création à son élimination ou sa conservation définitive. Cette gestion recouvre des actions du type (collecter, classer, conserver et communiquer). Dans une acception étroite ou ponctuelle on parle d'une action d'archivage pour : le « Transfert de documents qui ont cessé d'être d'utilité courante dans un local de stockage ou dans un service d'archives compétent pour les recevoir. » [Dictionnaire de terminologie archivistique. 2002]. Pour les archives publiques les modalités de ce transfert sont régies par le code du patrimoine.

Contributeur : Michel Jacobson

Au sens large, il s'agit de conserver un document sans limite de temps. Au sens de l'archive publique, les documents qui font l'objet d'un archivage, après leur période d'utilité administrative, le sont par définition de manière pérenne. Voir également la distinction entre l'archivage pérenne et la sauvegarde sécurisée sur le site du cines.

Au sens du code du patrimoine, « Les archives sont l’ensemble des documents, quels que soient leur date, leur lieu de conservation, leur forme et leur support, produits ou reçus par toute personne physique ou morale et par tout service ou organisme public ou privé dans l’exercice de leur activité » [Article L211-1]. Les documents numériques sont vu et traités comme des archives sauf pour les publications qui suivent un circuit pour leur conservation qui leur est propre (le dépôt légal).

Au sens du code du patrimoine, les archives publiques sont essentiellement « Les documents qui procèdent de l’activité, dans le cadre de leur mission de service public, de l’État, des collectivités territoriales, des établissements publics et des autres personnes morales de droit public ou des personnes de droit privé chargées d’une telle mission. ». [Article L211-4 ]. Les archives privées étant des « archives » qui n'entrent pas dans le cadre de cette définition.