PARTIE 2 - LES CORPUS ORAUX

Les métadonnées actuellement disponibles pour les corpus oraux

Analyse de l'existant, notamment avec le projet ORFEO (3.5 M de mots, 14 sources de données).

  • Très hétérogènes tant au niveau du format ...
    • Fichier texte (pdf, word)
    • Fichiers tabulaires (excel, csv)
    • XML (Dublin Core/OLAC, TEI Header, CMDI)
  • … que des contenus
    • champs basiques : durée, âge, lieu, nom ...
    • métadonnées absentes ?
    • valeurs évaluatives … subjectives (niveau de langue du locuteur : bon/moyen/mauvais, niveau de spontanéité, qualité, situation)

 

Les objets à décrire à l'oral

  • La situation orale ( >> le texte à l'écrit)
    • professionnel/privé
    •  face à face/distance : téléphone/visioconférence
    • public : conférence/radio
    • contexte : familial, amical, associatif …
  • Les locuteurs ( >> l'auteur à l'écrit)
    • Adulte/enfant
    • Natif/non natif
    • Critères socio-économiques, formation …
  •  L'enregistrement ( >> l'édition à l'écrit)
    • formats : téléchargement, diffusion, multiscope, qualité
    • études multimodales -> vidéo
    • études phonologiques/prosodiques -> qualité de son
  • La source à citer
  • Les conditions d'accès
    • Diffusion
    • Anonymisation : enregistrement ET transcription
  • Les annotations >> la transcription
    • Nature des annotations, convention
    • Format des fichiers (transcription à l'oral)
  • Les projets de recherche incluant cette ressource ou une partie de cette ressource

 

 

 

L'application en ligne TEIMETA pour décrire les métadonnées pour les corpus oraux

A. Un premier exemple décrivant une conversation à plusieurs locuteurs de la banque de données CLAPI

 

Description, Citation, Responsables, Contributeurs

 

B. Un deuxième exemple décrivant la lecture d'une liste de mots de la banque de données PFC

 


 

L'application en ligne TEICORPO pour un format interopérable des données elles-mêmes c’est-à-dire des transcriptions qui peuvent être automatiquement générées en TEI ou converties d'un format de logiciel à un autre