Quelles sont les grandes étapes d’une campagne d’annotation ?

Vous souhaitez réaliser des annotations dans un corpus, voici les grandes étapes qu’il vous faudra suivre :

  • vérifier que votre corpus soit proposé dans un format éditable, ouvert et non propriétaire comme par ex. un format .txt, .xml ou .json. Les documents au format .doc, .pdf, .docx, etc. doivent être préparés pour pouvoir être annoter
  • définir un schéma d’annotation : définition des objets à annoter (unités, relations, structures complexes), des types d’unités linguistiques concernées (caractères, mots, énoncés, paragraphes, unités de nature indéfinie), des caractéristiques à associer aux objets annotés
  • choisir un outil d’annotation (si possible, après en avoir testé plusieurs)
  • rédaction du guide d’annotation
  • test du guide à plusieurs sur un même texte
  • confrontation des annotations pour stabiliser la version finale du guide
  • sélection et formation des annotateurs (il est bienvenu de proposer une première annotation qui pourra être comparée à une version de référence, par exemple le texte utilisé pour stabiliser le guide)
  • annotation
  • vérification de la qualité des annotations, notamment par le calcul de l’accord inter-annotateurs
  • si possible, production d’une version adjudiquée (version de référence dans laquelle les désaccords auront été tranchés)
  • description des annotations recueillies
  • si possible ajout dans le guide d’annotation de nouveaux exemples (notamment des exemples d’incertitudes et de désaccords) et des témoignages des annotateurs