Qu’est-ce qu’un corpus aligné ?

L’alignement dans les corpus parallèles : c’est une opération qui permet d’expliciter les correspondances entre les segments de langue en termes d’équivalence de traduction. Un corpus parallèle est constitué d’un texte et de sa traduction dans une ou plusieurs langues. Afin d’aligner des corpus parallèles, le texte doit être divisé en segments. Un segment correspond généralement à une phrase. L’alignement fait référence aux informations qui indiquent à la machine quel segment (phrase) dans une langue est la traduction de quel autre segment dans une autre. Les systèmes de gestion de corpus comme les concordanciers sont des outils qui permettent d’extraire des mots/constructions cibles dans des corpus alignés parallèles (par exemple, Sketch Engine, NoSketch engine) – voir par exemple Rychly (2007) et Kilgarriff (2014).

Pour télécharger des corpus parallèles alignés (bilingues et multilingues), voir [ici].

Pour accéder à un concordancier de corpus parallèles alignés, voir [ici].

L’alignement dans des corpus comparables : c’est une opération qui permet d’expliciter les correspondances entre un enregistrement (généralement un enregistrement audio ou vidéo) et une transcription textuelle de telle sorte que les phonèmes, mots, phrases ou segments de discours sélectionnés comme cibles et le signal (audio/vidéo) soient mis en relation. Cette procédure est facile lorsque les chercheurs travaillent avec un discours bien organisé, avec peu ou pas de chevauchements.

Pour un exemple d’alignement audio/vidéo-transcription avec le logiciel CLAN, voir [ici].

Pour un exemple d’alignement avec le logiciel PRAAT, voir [ici] (anglais) et [ici] (français).

Références

  • RYCHLÝ, Pavel. Manatee/Bonito-A Modular Corpus Manager. In: RASLAN. 2007. p. 65-70.
  • KILGARRIFF, Adam, et al. The Sketch Engine: Ten Years on. Lexicography, 2014, 1.1: 7-36.