Glossaire

A | B | C | D | E | G | I | L | M | N | O | P | R | S | T | U | V

Pour vérifier la cohérence des annotations produites lors d'une campagne d'annotation et donc la qualité d'un corpus annoté, on utilise différentes mesures d'accord ainsi que des métriques d'évaluation. Ces outils peuvent être utilisés pour comparer les annotations produites par différents annotateurs sur le même jeu de données (on parle alors de mesure inter-annotateurs) ou par un même annotateur à différents moments (on parle de mesure intra-annotateur). Dans la famille des accords inter-annotateurs (ou intra-annotateur), on peut distinguer quatre coefficients principaux qui sont le S de Bennet, le ? de Scott (ou ? de Carletta), le ? de Chronbach et le ? de Cohen. Ces coefficients s'appuient sur la proportion des accords observés et la proportion attendue d'accords obtenus par hasard. Ils se distinguent par la façon différente de calculer l'accord attendu :

  • Le S de Bennet postule que l'annotation faite au hasard implique une distribution uniforme des catégories.
  • Le ? de Scott postule que cette annotation faite au hasard implique une distribution différente selon les catégories mais identique entre annotateurs.
  • Le ? de Cohen prend en compte le biais annotateur (chaque annotateur est susceptible d'avoir une interprétation différente du guide).
  • Le coefficient alpha de Cronbach, parfois appelé simplement coefficient ?, est une statistique utilisée notamment en psychométrie pour mesurer la cohérence interne (ou la fiabilité) des questions posées lors d'un test (les réponses aux questions portant sur le même sujet devant être corrélées). Sa valeur s'établit entre 0 et 1.

Parmi les métriques d'évaluation, on retrouve le plus souvent la Précision, le Rappel, la F-mesure et le Slot Error Rate :

  • Le Rappel est une mesure de quantité.
  • La Précision est une mesure de qualité.
  • La F-mesure est une synthèse des de la Précision et du Rappel.
  • Le Slot Error Rate est une mesure de taux d'erreurs qui permet de pondérer des types d'erreurs (ou de différences).

Informations qui permettent de documenter les données primaires (enregistrements) ou secondaires (annotations...), à la manière d'une fiche bibliographique pour un livre dans une bibliothèque.

Dans un sens restreint, une fiche de métadonnées caractérise un corpus à l'aide d'une liste d'attributs standards, destinés à être interprétés par des robots, dans le cadre du moissonnage (metadata harvesting de métadonnées). A l'état actuel, les catégories OLAC font office de standard dans le domaine de l'archivage de corpus de linguistique.

Une fiche OLAC peut s'avérer parfois insuffisante pour décrire certaines informations. Il est important, alors, que chaque communauté de recherche développe des solutions pour répondre à ces besoins en s'appuyant sur les standards internationaux comme la TEI ou ISOcat.

Il existe des éditeurs de métadonnées que l'on peut associer à un logiciel d'annotation: IMDI et ARBIL en sont des exemples, ils sont compatibles avec le logiciel ELAN.

D'autres "métadonnées" au sens large de documentation (tableaux excel, commentaires...), peuvent, en plus, accompagner les corpus, voire chacun des documents numériques.

Approche d’exploration de corpus basée sur un découpage du corpus en parties; la méthode consiste à extraire pour chaque partie ses unités les plus spécifiques à l’aide de mesures statistiques (loi hypergéométrique, valeur-test, etc.)

Quelques outils : AntConc, Lexico3, Le Trameur, TXM

Ce terme désigne le processus par lequel les métadonnées sont collectées auprès des entrepôts de données pour être rassemblées chez les fournisseurs de service (moteurs de recherche...). Pour que les métadonnées puissent être moissonnées (et que les corpus de données soient interopérables), elles doivent se conformer à des standards. Le protocole OAI-PMH, oblige minimalement l'utilisation du format Dublin Core et permet d'ajouter autant de format que nécessaire (Le format OLAC qui propose des extensions spécifiques à la linguistique est un complément utile pour des ressources de cette discipline).

Nous entendons ici par corpus plurilingues des corpus dont les données enregistrées mettent en jeu des locuteurs bilingues ou plurilingues, maniant plusieurs langues dans les enregistrements. Les notations prennent en compte ces différences, cruciales pour les recherches sur le bi/plurilinguisme, les phénomènes d’hétéroglossie, d'alternance codique (code-blending et code switching), l’idéologie linguistique, l’acquisition de seconde langue, etc.

Nous distinguons cette situation d'une part des corpus de traduction (deux versions ou plus d'un même texte dans des langues différentes sont alignés) et des corpus utilisant une langue de description différente de la langue décrite (cf. Métalangue de description).

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

La communication humaine implique l’utilisation simultanée de plusieurs canaux, relevant de plusieurs modalités, participant toutes à l’interaction interpersonnelle. Ces canaux incluent la modalité audio-phonatoire (parole) et la modalité visuo-gestuelle (regards, gestes, autres mouvements et positions du corps, signes...), cette dernière constituant la modalité principale définissant les langues des signes, qui sont organisées en des systèmes de différents types d’unités gestuelles.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)