Quels formats pour les données multilingues ?

Les données multilingues d’un même corpus doivent être représentées dans des formats spécifiques. Leur représentation dépend d’un schéma qui assure la distinction entre les langues.  Cette distinction dépend de l’organisation interne des données, c’est-à-dire de leur format. Les formats sont intimement liés aux outils qui permettent de représenter les données et de produire les fichiers.

La Text Endocing Initiative (TEI) développe un cadre pour la représentation numérique des données orales et écrites au format XML. L’objectif est de fournir aux transcripteurs de corpus un ensemble de directives pour coder les caractères de différentes langues, identifier la langue des données et décrire les données indépendamment de la langue. L’objectif est de rendre les données lisibles par machine.

Pour y parvenir, différents niveaux de traitement des données ont été définis par le consortium. Au niveau du jeu de caractères, la norme Unicode a été adoptée et permet l’encodage universel de (presque) tous les glyphes utilisés dans les langues humaines. Pour la transcription des contenus, la structure d’un document TEI permet d’identifier la langue du document et également les glyphes d’autres langues lorsqu’ils existent dans le texte. Un document TEI est composé de deux parties :

  • la partie « TeiHeader » dans laquelle l’identification de la langue se trouve comme attribut. D’autres métadonnées telles que le titre, les informations sur la publication, etc. peuvent également être trouvées dans cette partie.
  • la partie « text » comprend toutes les informations décrivant le texte. Cela inclut les extraits correspondant à d’autres langues que celle initialement déclarée dans le document. Elle comprend également une caractérisation des données qui peuvent être divisées avec un élément de division « div » pour décrire ce que « font » les chaînes de texte. Par exemple, une division peut indiquer un chapitre. La TEI permet d’affiner la description des éléments textuels en proposant des composantes « structurelles » sous forme d’éléments de paragraphe, de phrases, de vers ou de tours de parole dans un dialogue.  Toutes ces informations permettent de caractériser les textes d’un corpus avec un schéma identique quelle que soit la langue. Des requêtes identiques peuvent alors traiter tous les textes d’un corpus multilingue au format TEI.  

De nombreux outils de transcription offrent des interfaces conviviales (voir Section 5). La plupart de ces outils formatent les données en XML et permettent des alignements entre le signal, les couches de transcription/traduction et les couches d’annotation. Le langage XML et la structuration TEI, le codage Unicode, les segments multilingues possibles avec des limites identiques rendent les fichiers interopérables. Des utilitaires de conversion de fichier à fichier tels que TEI-corpo (Parisse et al. 2020) ou Pepper (Zipser & Romary, 2010) assurent la compatibilité TEI. Ces formats communs permettent le traitement de données multilingues.  

Le format CoNNL-U est une autre manière de mettre en forme les données textuelles et leurs annotations Universal Dependencies (UD) (de Marneffe et al. 2021). Il consiste en un fichier texte dans lequel les mots sont divisés en lignes. Chaque ligne contient les mots et un certain nombre d’annotations. Certaines lignes peuvent être réservées à des commentaires. Ce format est conçu pour être lisible par une machine et peut être appliqué à des corpus comparables.

 

Références: 

  • Burnard, L. (2014). What Is the Text Encoding Initiative? : How to Add Intelligent Markup to Digital Resources. Marseille: OpenEdition Press. https://books.openedition.org/oep/426
  • TEI Consortium (Eds.). TEI P5 : Guidelines for Electronic Text Encoding and Interchange. TEI Consortium. Consulté 11 octobre 2022, à l’adresse http://www.tei-c.org/Guidelines/P5/ 
  • Zipser, F. & Romary, L. (2010). A model oriented approach to the mapping of annotation formats using standards. In: Proceedings of the Workshop on Language Resource and Language Technology Standards, LREC 2010. Malta. URL: http://hal.archives-ouvertes.fr/inria-00527799/en/
  • de Marneffe, M.-C., Manning, C. D., Nivre, J., & Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2), 255‑308. https://doi.org/10.1162/coli_a_00402

Parisse, C., Etienne, C., & Liégeois, L. (2020). TEICORPO : A conversion tool for spoken language transcription with a pivot file in TEI. Journal of the Text Encoding Initiative. https://halshs.archives-ouvertes.fr/halshs-03043572. URL for web interface: https://ct3.ortolang.fr/teiconvert/index-fr.html