Table-Ronde « Formats et métadonnées communs »

Date/heure
Date(s) - 23/06/2014
Toute la journée

Catégories


Lieu: Paris

Participants (20) : Mathieu Avanzi, Giulia Barreca, Olivier Baude, Christophe Benzitoun, Catherine Bolly, Annelies Braffort, Laurie Buscail, Christian Chanard, George Christodoulides, Carole Etienne, Serge Fleury, Sylvain Kahane, Bernard Laks, Florence Lefeuvre, Myriam Majdoub, Aliyah Morgenstern, Christophe Parisse, Julie Peuvergne, Anne-Catherine Simon, Atanas Tchobanov

Projets et corpus représentés (21) : CFPP Corpus de Français Parlé Parisien, CLAPI, COLAJE, CORALROM, CORPAFROAS, CORPAGE, CRFP, DEGELS1, DICTA-SIGN, ESLO, FLORAL, HPOL, LS-COLIN, LVTI, OFROM, ORFEO, PFC Phonologie du Français Contemporain, PAC Phonologie de l’Anglais Contemporain, RHAPSODIE, TCOF Traitement des Corpus Oraux du Français, VALIBEL

Présentations

Présentation de la table ronde, Christophe Benzitoun

“Paysage Institutionnel”, Olivier Baude

« Vers des métadonnées communes », Carole Etienne

« Proposition de convention commune de transcription« , Christophe Benzitoun à partir de l’atelier coordonné par Philippe Blache dans le cadre de l’Ircom, groupe de travail interopérabilité

“Vers un format commun de transcription des données orales” , Christophe Parisse et Myriam MAJDOUB

Pré-requis

L’objectif de ce travail collaboratif est de définir un jeu de descripteurs et un format de transcription communs adaptés à l’ensemble des données, il ne s’agit pas d’appauvrir les données existantes en les ramenant seulement à ce sous-ensemble commun ni de tout standardiser au détriment des spécificités de chaque source de données. Cette “couche” commune servira pour la partie métadonnées aux recherches de données parmi les corpus existants et pour la partie transcription à ancrer les différentes couches d’annotations sur une ligne de transcription commune. Elle permettra également d’utiliser des outils de recherche et de fouille sur tous les corpus disponibles, sans interdire de revenir aux corpus complets une fois qu’ils sont repérés.

Pour les corpus déjà définis

Il n’y aura ni perte d’informations, ni reprise des métadonnées et des transcriptions existantes, la tâche consistera à dégager ces métadonnées communes et la transcription de niveau 0 à partir des métas et des transcriptions d’origine, les originaux resteront disponibles en consultation soit directement depuis les plateformes communes soit par un lien url vers la ressource d’origine.

Pour les corpus à venir

Ce “niveau 0” participera à l’élaboration de bonnes pratiques de constitution et de diffusion des données orales, son apprentissage devrait entrer dans la formation initiale des futurs étudiants mais aussi dans le programme des prochaines écoles thématiques sur l’oral comme sur le multimodal.

Besoins identifiés de manière collective au cours des discussions

    1. Homogénéiser les droits de citation des corpus, rappeler aux relecteurs d’articles ou aux directeurs de thèses d’exiger systématiquement que les sources de données soient bien décrites et citées. Généraliser l’association des dépôts de corpus avec le dépôt des ouvrages scientifiques associés, et rendre possible la mise à jour aisée de ces références bibliographiques.

 

    1. Proposer une gestion commune des droits d’accès aux supports oraux, probablement à partir de l’étude menée par le groupe de travail 5 “Questions juridiques” de l’Ircom ou en lien avec d’autres consortiums, notamment pour résoudre le problème récurrent des anonymisations du signal audio ou vidéo rendant impossibles certaines études (par exemple sur le geste ou la prosodie), réfléchir en particulier aux données sensibles comme les données médicales. Quand les autorisations seront restreintes ou soumises à confidentialité, prévoir une procédure permettant de partager ces données sensibles dans la communauté pour poursuivre les recherches.

 

    1. Lister les outils disponibles par format de transcription comme les scripts de conversion, les scripts d’anonymisation, …

 

    1. Proposer et diffuser un format commun permettant le partage optimal des données avec les propriétés du niveau 0 de transcription, avec des des extensions possibles à tout domaine de recherche connexe.

 

    1. Définir des bonnes pratiques pour l’alignement des données au signal pour faciliter les annotations (semi-)automatiques par la suite (ex: groupe de tokens courts sans couper un mot ni avoir de tours trop longs), problème de tokenisation (cf expérience de Rhapsodie)

 

    1. Clarifier le dépôt des mêmes corpus dans plusieurs sources : comment les référencer ? comment les partager?

 

  1. Mettre en place une couche de transcription basique “gros grain”, rapide à réaliser (donc peu couteuse) qui permettrait des recherches simples sur de grands volumes pour identifier les passages à analyser plus finement

Questions concernant Ortolang

  • Consulter les informations sur le site d’Ortolang
  • Lettre d’information : lettre d’information
  • L’équipe d’Ortolang est en train de préparer une charte portant sur les services qui seront offerts par Ortolang. Cette charte devrait être disponible en octobre 2014 et sera largement inspirée des travaux des consortiums.

Service offert pour faciliter le dépôt des corpus : formulaire “guidé” pour les métadonnées multi-niveaux

Préciser les formats de dépôt et les droits d’accès

Proposer un alignement transcription/signal et un enrichissement automatique des données en syntaxe quand une transcription est déposée et rendue disponible à la communauté

Proposer un outil de fouille dans la transcription, probablement à partir d’un sous-ensemble de requêtes-type “guidées” capables de travailler sur différentes couches d’annotations

Rappels

Archivage : dépôt d’une donnée qui ne sera plus modifiée, donc figée au moment du dépôt. L’archivage ne permet pas l’accès systématique, et sous-entend la notion de don de la ressource à l’état. Une donnée archivée passe dans les mains des archivistes et n’est plus contrôlée par son donateur.

Pérennisation : idée de rendre durable, de figer. Dans le cadre des corpus, il y a deux usages principaux:

  • l’archivage pérenne qui implique qu’une archive (voir ci-dessus) a un identifiant unique d’une ressource archivée
  • un identifiant pérenne qui permet de donner un nom unique et définitif à un objet stocké (en particulier en stockage sécurisé – voir ci-dessous), pour pouvoir identifier et accéder à cet objet de manière fiable pour de nombreuses années

Sécurisation : sauvegarde sur des serveurs de haute fiabilité technologique via des centres dont par exemple Ortolang pour les corpus de langage. La sauvegarde n’est pas éternelle mais peut être envisagée à très longue durée. Les données n’ont pas à être nécessairement contrôlées dans leur format comme pour l’archivage. Dans la pratique on peut envisager:

  • une sécurisation liée à une identification du producteur de corpus puis l’alimentation au fil de l’eau et création d’identifiant pérenne
  • un dépôt “bac à sable” pour des projets en cours non encore finalisés ou des corpus de thèses. Dans ce cas, on peut envisager des durées qui ne sont pas illimitées: par exemple terminé dans 2 ans et disponible pendant 5 ans

Limites de la concertation commune

Outils de floutage vidéo ⇒ voir les autres ressources vidéo

Langue des signes : format commun de transcription probablement mal adapté, essayer de travailler à partir d’extraits

Outil générique d’interrogation sur toutes les couches d’annotations: à venir si extrapolation possible à partir des requêtes-type mais difficulté à construire une interface commune, difficulté à choisir les résultats et les annotations à afficher, quelle approche quantitative retenir pour l’oral quand le nombre de résultats est important ?

Références

O. Baude, M. Jakobson, A. Tchobanov et R. Walter, 2005, Interopérabilité des corpus sonores : le cas des corpus en français, Phonological variation : the case of French, University of Tromso, Norway