Métadonnées (partie 2)

Les métadonnées actuellement disponibles pour les corpus oraux

Analyse de l’existant, notamment avec le projet ORFEO (3.5 M de mots, 14 sources de données).

  • Très hétérogènes tant au niveau du format …
    • Fichier texte (pdf, word)
    • Fichiers tabulaires (excel, csv)
    • XML (Dublin Core/OLAC, TEI Header, CMDI)
  • … que des contenus
    • champs basiques : durée, âge, lieu, nom …
    • métadonnées absentes ?
    • valeurs évaluatives … subjectives (niveau de langue du locuteur : bon/moyen/mauvais, niveau de spontanéité, qualité, situation)

Les objets à décrire à l’oral

La situation orale ( >> le texte à l’écrit)
professionnel/privé face à face/distance : téléphone/visioconférencepublic : conférence/radiocontexte : familial, amical, associatif …Les locuteurs ( >> l’auteur à l’écrit)
Adulte/enfantNatif/non natifCritères socio-économiques, formation … L’enregistrement ( >> l’édition à l’écrit)
formats : téléchargement, diffusion, multiscope, qualitéétudes multimodales -> vidéoétudes phonologiques/prosodiques -> qualité de son
La source à citerLes conditions d’accès
DiffusionAnonymisation : enregistrement ET transcriptionLes annotations >> la transcription
Nature des annotations, conventionFormat des fichiers (transcription à l’oral)Les projets de recherche incluant cette ressource ou une partie de cette ressource  

L’application en ligne TEIMETA pour décrire les métadonnées pour les corpus oraux

A. Un premier exemple décrivant une conversation à plusieurs locuteurs de la banque de données CLAPI

Description, Citation, Responsables, Contributeurs

B. Un deuxième exemple décrivant la lecture d’une liste de mots de la banque de données PFC

 

L’application en ligne TEICORPO pour un format interopérable des données elles-mêmes c’est-à-dire des transcriptions qui peuvent être automatiquement générées en TEI ou converties d’un format de logiciel à un autre