Qu’est-ce qu’un corpus bi-/multilingue ?

Les corpus bilingues et multilingues sont très courants dans les études linguistiques et sont pertinents pour les chercheurs qui travaillent, entre autres, en linguistique historique, en acquisition des langues, en variation, en études dialectales et typologiques. Typiquement, on distingue deux types de corpus bilingues/multilingues : les corpus comparables et les corpus parallèles. Souvent de taille modeste, par rapport aux corpus du domaine général, les corpus comparables et parallèles sont spécialisés et construits pour répondre à des besoins spécifiques ou à des questions de recherche particulières.

Corpus comparables bilingues/multilingues : Dans ce type de corpus, les langues cibles sont réunies sur la base de la « comparabilité ». Ces corpus sont constitués de textes, de productions orales ou multimodales de locuteurs des langues étudiées, qui partagent des critères similaires de composition, de genre et de sujet, mais qui ne sont pas des traductions directes les unes issues des autres.

Corpus parallèles bilingues/multilingues : Dans ce type de corpus, les langues cibles sont étudiées en parallèle. Ces corpus se composent de textes, de productions orales ou multimodales en langue A et de leur traduction en langue B, C, D etc. et/ou de leurs combinaisons. La relation entre les textes dans les langues cibles est directe et mono-directionnelle, c’est-à-dire qu’elle va d’un texte (le texte source) à l’autre (le(s) texte(s) traduit(s)) et nécessite un minimum d’alignement.

Pour plus d’informations sur les corpus bilingues/multilingues, voir Barrière (2016) : [ici].

Pour plus d’informations sur les principaux problèmes liés aux corpus bi-/multilingues et des exemples/démonstrations de collecte de données, d’annotation, d’exploration, d’analyse et de stockage de ces corpus selon les principes de données FAIR voir [ici] et [ici].

Références

BARRIERE, C. (2016). Bilingual Corpora. In: Natural Language Understanding in a Semantic Web Context. Springer, Cham. https://doi.org/10.1007/978-3-319-41337-2_7