Métadonnées (partie 1)

Métadonnées Coordination : Carole Etienne

PARTIE 1 – FACILITER LA RÉUTILISATION DES CORPUS PAR D’AUTRES CHERCHEURS

Pourquoi un chercheur serait amené à réutiliser un corpus ?

  1. Disposer d’un volume de données plus important
  2. Explorer les mêmes données dans différentes perspectives : analyses syntaxiques, prosodiques, phonologiques ou interactionnelles d’une même donnée
  3. Bénéficier de différents jeux d’annotations qui ne sont pas disponibles dans ses propres données
  4. Contraster son même objet d’étude mais avec d’autres jeux de données :
    • écrites, orales, écrits non planifiés
    • dans des langues différentes
    • pour des études diachroniques
    • pour les corpus écrits : nature des textes, auteurs, …
    • pour les corpus oraux : enfants/adultes, professionnel/privé, nombre de locuteurs, locuteurs natifs/non natifs, face à face ou téléphone ou visioconférence, …

On observe une évolution dans les projets de recherche qui concernent des corpus existants, ils impliquent de plus en plus plusieurs sources de données et peuvent également associer des corpus oraux et des corpus écrits (écrits non planifiés).

En début de projet, au moins un « Work Package » est dédié à la mise en commun de ces donnée pourtant déjà décrites et annotées. Cette étape qui se reproduit dans chaque projet pourrait être réduite pour libérer du temps et des ressources pour les analyses elles-mêmes.

Et en fin de projet, de nouvelles annotations ont été réalisées et sont donc délivrées, souvent dans différents formats et avec différents outils automatiques ou semi-automatiques, ces enrichissements doivent être décrits dans les corpus d’origine qui centralisent toutes les annotations disponibles pour faciliter leur future réutilisation.

Le rôle des métadonnées

  • Identifier précisément les données pour les sélectionner dans l’étude.
  • Rendre homogène un corpus d’étude constitué de données de plusieurs sources sans le re-décrire (déjà fait dans chaque source)
  • Disposer d’informations au moment des analyses
  • Ajouter de nouvelles annotations réalisées de manières manuelles ou (semi) automatiques (TAL) : documenter les annotations, quel logiciel/outil et version, quel format ?)

-> Ne pas oublier que les métadonnées évoluent avec les données
-> Les métadonnées doivent être exprimées dans un standard international pour être réutilisées par une large communauté.

Les contraintes

  • L’hétérogénéité des pratiques de la communauté
  • S’adapter aussi bien à la reprise de l’existant qu’à de nouveaux projets sans reprendre les discussions théoriques
  • Permettre des usages occasionnels sans avoir à consulter une documentation trop longue
  • Ne pas hésiter trop longtemps entre plusieurs choix possibles
  • Disposer d’exemples proches de son projet
  • Sans maîtrise de XML, d’OLAC ou de la TEI

Les solutions

  • Un jeu de métadonnées commun à toutes les ressources pour faciliter la prise en main et la mise en commun des données
  • Un jeu commun mais différents niveaux de granularité, par exemple pour l’âge : adulte >> tranche d’âge >> âge précis
  • Le choix de la TEI comme standard :
    • regroupement dans un seul fichier des métadonnées et des données
    • définition d’une personnalisation ODD qui permet :
      • de délimiter un jeu d’éléments et de propriétés
      • de définir et d’exemplifier leur structure
      • utilisé largement dans les corpus écrits
  • Une application personnalisable Teimeta pour saisir ces métadonnées
    • en ligne
    • à partir d’un fichier TEI/ODD défini actuellement pour les corpus oraux et largement diffusé
    • avec un vocabulaire contrôlé
    • application multilingue

Le principe FAIR

FFindability : Différents publics donc différentes métadonnées (cf les objets à décrire)
AAccessibility : Tradition de plateformes d’archivage en linguistique depuis les années 2000Vérification du processus scientifique : besoin de conserver une version d’un corpus pour reproduire une analyse déjà effectuée en vue de l’améliorer
IInteroperability : Différentes disciplines de la linguistique mais aussi différentes communautés pour différentes pratiquesa. Métadonnées et format des données interopérables
b. Les solutions pour les métadonnéesUn jeu commun de métadonnées à toutes les ressources pour faciliter la prise en main des métadonnées et la mise en commun des donnéesUne application personnalisée teimeta pour saisir ces métadonnées à partir d’un fichier TEI/ODD défini pour les corpus oraux et largement diffuséJeu commun mais différents niveaux de granularitévocabulaire contrôléApplication multilingue en ligne teimetaDes métadonnées dans un standard international TEIc. Les solutions pour les annotationsUn format de transcription pivot, indépendant des conventions, logiciels ou outilsUn standard international TEI pour ce format pivot
RReusability : Les licences d’utilisation des données Teimeta : un jeu commun de métadonnées orientées recherche Teiconvert : des outils de conversion pour passer sans perte d’information d’un logiciel d’annotation à un autre