Annotation

Dans ce wiki, nous utilisons le terme « annotation », au sens large, pour désigner la documentation de sous-parties d’enregistrements (phases, mots, tour de parole…), en opposition au terme « métadonnées », qui désigne la documentation d’un enregistrement dans son ensemble.

Dans un sens plus restreint, le terme « annotation », qui est un codage d’informations diverses (glose, gestes, balisage, analyse morpho-syntaxique,…), s’oppose à « transcription », qui est le codage orthographique ou phonétique de la parole qui a été produite.

  • Annotation déportée ou débarquée (stand-off annotation) : Recommandation pour encoder les annotations séparément des données primaires. D’une façon générale, chaque type d’annotation (prosodique, morphologique syntaxique, prosodique, etc.) est encodée dans un fichier spécifique. Les relations entre les données de différents types sont indiquées par le système d’alignement. Cette pratique permet de travailler sur chaque type de donnée indépendamment des autres. Il évite également de modifier les données primaires, ce qui peut entraîner le risque de ne plus pouvoir croiser les niveaux d’annotation et proposer des analyses complètes.
  • Etiquetage morpho-syntaxique (POS-tagging) : L’annotation syntaxique consiste à associer à chaque token un ensemble d’informations qui contient a minima la partie du discours (N, V, Det, etc.) et un ensemble de traits (pluriel, masculin, etc.). Ces traits peuvent être très détaillés et contenir également des informations de sous-catégorisation ou des traits sémantiques. D’autres informations comme le lemme, la forme phonétique, la fréquence, etc. peuvent également être indiquées.
  • Annotation syntaxique (parsing) : L’annotation syntaxique consiste à ajouter des informations sur la forme d’une structure syntaxique représentant les unités syntaxiques et les relations qui les lient. On distingue l’annotation superficielle de l’annotation profonde. La première consiste à repérer des chunks, ou séquences de tokens appartenant à un même groupe, sans emboîtement, ni structure hiérarchique. Par exemple, la séquence Det+N constituera un chunk nominal. L’annotation en structures syntaxiques profondes consiste à associer une véritable structure syntaxique à un énoncé. On utilise généralement des annotations en constituants ou en dépendances. Les corpus annotés en syntaxe sont généralement appelés des treebanks.
  • Bien d’autres annotations sont possibles : prosodie, entités nommées, chaînes de coréférence, rôles thématiques, relations de discours entre unités discursives, désambiguïsation lexicale, émotions, opinions, etc. Voir le cas de l’annotation des langues des signes que nous détaillons.

Quelques outils : Inception, Nooj, Glozz, Analec, Le Trameur, The Sketch Engine