Les métadonnées actuellement disponibles pour les corpus oraux
Analyse de l’existant, notamment avec le projet ORFEO (3.5 M de mots, 14 sources de données).
- Très hétérogènes tant au niveau du format …
- Fichier texte (pdf, word)
- Fichiers tabulaires (excel, csv)
- XML (Dublin Core/OLAC, TEI Header, CMDI)
- … que des contenus
- champs basiques : durée, âge, lieu, nom …
- métadonnées absentes ?
- valeurs évaluatives … subjectives (niveau de langue du locuteur : bon/moyen/mauvais, niveau de spontanéité, qualité, situation)
Les objets à décrire à l’oral
La situation orale ( >> le texte à l’écrit) professionnel/privé face à face/distance : téléphone/visioconférencepublic : conférence/radiocontexte : familial, amical, associatif …Les locuteurs ( >> l’auteur à l’écrit) Adulte/enfantNatif/non natifCritères socio-économiques, formation … L’enregistrement ( >> l’édition à l’écrit) formats : téléchargement, diffusion, multiscope, qualitéétudes multimodales -> vidéoétudes phonologiques/prosodiques -> qualité de son | La source à citerLes conditions d’accès DiffusionAnonymisation : enregistrement ET transcriptionLes annotations >> la transcription Nature des annotations, conventionFormat des fichiers (transcription à l’oral)Les projets de recherche incluant cette ressource ou une partie de cette ressource |
L’application en ligne TEIMETA pour décrire les métadonnées pour les corpus oraux
A. Un premier exemple décrivant une conversation à plusieurs locuteurs de la banque de données CLAPI
Description, Citation, Responsables, Contributeurs