Quels outils sont disponibles pour réaliser des annotations sur mon corpus multilingue ?

Il existe de nombreux outils disponibles sur le marché pour annoter les corpus. Si les corpus doivent être parallèles ou comparables, leurs schémas d’annotation, ou tout du moins certaines couches d’annotation, doivent être identiques afin de permettre les comparaisons entre les éléments de données. Par exemple, on peut vouloir extraire tous les noms d’un corpus bilingue, ce qui implique l’utilisation des mêmes étiquettes POS dans les deux langues. Par conséquent, pour être multilingue, un schémas d’annotation doit être applicable aux données de différentes langues.

Dans le cas de l’annotation automatique, il existe un certain nombre d’outils qui appliquent des schémas d’annotation identiques sur des données multilingues. Dans le cas de l’annotation grammaticale, le projet Universal Dependencies (UD) (de Marneffe et al. 2021) vise à développer un cadre incluant les parties du discours, les caractéristiques morphologiques et les dépendances syntaxiques dans différentes langues. Il est possible d’appliquer le schéma automatiquement avec des outils tels que UDpipe et Spacy, qui sont deux bibliothèques implémentées en Python et R. L’existence d’outils automatisés dépend du niveau d’analyse requis.  

Dans le cas de l’annotation manuelle, un certain nombre de schémas ont été conçus pour les corpus multilingues. Les guides d’utilisation décrivent quelles langues et quels niveaux d’analyse sont pris en compte. Par exemple, l’analyse du discours peut nécessiter l’annotation des relations discursives utilisées pour exprimer la causalité ou le contraste. Sous réserve d’un accord sur le schéma et son fondement théorique, les codes peuvent être appliqués à des textes de langues différentes. Le projet ANNODIS (Péry-Woodley et al., 2011) offre des perspectives utiles à cet égard. Il décrit un certain nombre de relations rhétoriques entre entités et ces relations existent également dans d’autres langues, ce qui rend le système de codage transférable. De la même manière, le jeu de balises de sens conçu pour le projet Penn Discourse Treebank (Prasad et al., 2008) peut également être appliqué à d’autres langues que le français. De nombreux projets ont développé leur propre système d’encodage en fonction du niveau d’analyse visé. Pour une liste non exhaustive, veuillez consulter la section Guides d’annotation du site CORLI.

Selon la nature du corpus et les objectifs en termes d’annotation, les chercheurs peuvent être amenés à choisir un outil par rapport à un format. Ci-dessous se trouvent quelques exemples d’outils de corpus bi/multilingues comparables et parallèles et les types de fichiers qu’ils produisent. Le tableau suivant présente un certain nombre d’outils qui permettent plusieurs niveaux d’annotation. Il est important de noter que plusieurs de ces outils sont interopérables du point de vue de leurs formats de sortie (cf. Section 4) et que les fichiers peuvent être convertis automatiquement.  

 

Tools File types
ELAN .eaf
EXMARALDA .exb
PRAAT .textgrid
CLAN .cha
TXM .txm
UDPipe .conll
Spacy .conll

Tableau: Outils d’annotation et leur type de fichier

 

Références :  

  • de Marneffe, M.-C., Manning, C. D., Nivre, J., & Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2), 255‑308. https://doi.org/10.1162/coli_a_00402
  • Péry-Woodley, M.-P., Afantenos, S., Ho-Dac, L.-M., & Asher, N. (2011). La ressource ANNODIS, un corpus enrichi d’annotations discursives. Revue TAL, 52(3), 71‑101.
  • Prasad, R., Dinesh, N., Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A., & Webber, B. (2008, mai). The Penn Discourse TreeBank 2.0. Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC’08). LREC 2008, Marrakech, Morocco. http://www.lrec-conf.org/proceedings/lrec2008/pdf/754_paper.pdf

 

Manuels pour la transcription et le codage des données bilingues/multilingues: 

  • Barnett, R., Codó, E., Eppler, E., Forcadell, M., Gardner-Chloros, P., van Hout, R., Moyer, M., Torras, M. C., Turell, M. T., Sebba, M., Starren, M., & Wensing, S. (2000). The LIDES Coding Manual: A document for preparing and analyzing language interaction data Version 1.1—July, 1999. International Journal of Bilingualism, 4(2), 131–132. https://doi.org/10.1177/13670069000040020101
  • Soroli, E. & Tsikulina, A. (2020). Bilingual Discourse Analysis Manual (BILDA2-v2): a manual for transcription, coding and analysis of bilingual and second language learning data. [University report] University of Lille; CORLI Huma-Num consortium. ⟨hal-02567511

Pour un guide pratique sur le codage de données, la vérification de sa validité et de sa fiabilité, voir [ici].

Outils proposés par l’infrastructure CLARIN-ERIC pour l’analyse de données : https://switchboard.clarin.eu/tools