Constituer un corpus
- La page Bonnes pratiques pour la constitution de corpus recense les bonnes et les mauvaises pratiques lors de la constitution d’un corpus
- Plusieurs formations dédiées à la constitution de corpus, notamment multimodaux, ont été organisées au CORLI, elles sont répertoriées ici : Constitution de corpus – Formations et supports
On désigne par métadonnées un ensemble d’informations que l’on décide de conserver en plus des données linguistiques à proprement parler, afin de les documenter et de faciliter la réutilisation du corpus par d’autres chercheurs. Ces informations peuvent être très diverses : sources des données, logiciels (et leur version exacte) utilisés pour la collecte ou le traitement des données, informations sur les locuteurs (âge, sexe, langue maternelle…) ou sur la situation de l’acquisition pour des données orales ou multimodales, etc.
Un point très important est que les métadonnées devraient être standardisées, c’est-à-dire exprimées selon un standard international accepté par la communauté scientifique. Comme les pratiques sont, aujourd’hui encore, très hétérogènes, le CORLI mène une action de valorisation des corpus qui vise à finaliser la mise en forme de corpus existants en suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable).
Plus de ressources sur le site du CORLI :
- La page de l’action Finalisation de corpus menée par le CORLI
- Une page dédiée aux métadonnées
- L’outil TEIMETA pour l’édition de métadonnées au format TEI, dans sa version en ligne ou à télécharger
La mutualisation des corpus, et le respect des bonnes pratiques que cela induit, rendent la constitution de corpus très coûteuse. Il faut considérer les corpus comme des productions scientifiques à part entière. Être en mesure d’évaluer leur qualité constitue donc un enjeu essentiel.
L’évaluation des corpus est une problématique très importante au sein de CORLI :
- Le groupe-réseau « Évaluation de corpus » y est consacré
- Deux journées d’étude ont été organisées sur cette thématique, en 2016 et en 2019
- Vous trouverez sur le site une page dédiée aux critères d’évaluation des ressources
Plusieurs raisons incitent à déposer son corpus. D’une part, la constitution d’un corpus est un processus très coûteux ; il est donc important de mutualiser cet effort pour en faire bénéficier d’autres chercheurs ; en effet, il pourrait donner lieu à de nouvelles analyses. D’autre part, les données qui constituent un corpus ont parfois une valeur patrimoniale (par exemple pour la documentation de langues rares) qui les rend précieuses et suffit à rendre souhaitable leur archivage. Enfin, le dépôt des données répond à une problématique de contrôle et d’évaluation de la recherche : tout travail expérimental doit pouvoir être reproduit, et la mise à disposition des corpus (ainsi que celle de leur documentation et éventuellement des outils ayant permis de les analyser) est une condition sine qua non pour assurer cette reproductibilité.
Pour déposer un corpus, il est préférable que ce dernier soit mis en forme d’une façon conforme aux standards internationaux (TEI et autres formats XML adaptés, etc.) et qu’il soit décrit par des métadonnées elles aussi standardisées. Le corpus déposé devrait respecter les principes FAIR : Findable, Accessible, Interoperable, Reusable. C’est pourquoi le CORLI mène une action qui vise à financer la finalisation de corpus de manière à respecter ces principes, afin que ces derniers puissent être déposés et valorisés.
Le dépôt d’un corpus peut se faire sur des sites spécialisés ; en France, on trouve notamment les sites COCOON et ORTOLANG.
Plus de ressources sur le site du CORLI :
Tous les formats ne sont pas appropriés pour stocker les données d’un corpus. En effet, il est primordial que les données soient enregistrées dans un format structuré et normalisé, afin de pouvoir être exploitées automatiquement.
- La page suivante fait le point sur les formats : Formats de l’oral et de la multimodalité
- L’outil TEI-CORPO permet de convertir des fichiers aux formats Elan, Clan, Transcriber et Praat vers la TEI et vice-versa
Annoter un corpus
Annoter un corpus, c’est ajouter une ou plusieurs couches d’interprétation linguistique aux données brutes. Les annotations ajoutées peuvent être de natures très diverses : il peut s’agir de catégories morpho-syntaxiques, d’annotations sémantiques ou discursives, mais également, dans le cas de corpus oraux ou multi-modaux, d’informations sur la prosodie, les gestes, etc.
Les annotations sont réalisées lors de campagnes d’annotation par des annotateurs humains, plus ou moins experts, qui s’appuient sur un guide d’annotation.
Plus de ressources sur le site du CORLI :
- Le groupe-réseau 5 du CORLI est consacré aux problématiques liées à l’annotation de corpus. Vous pouvez vous inscrire à sa liste de diffusion.
- Plusieurs formations organisées par les membres du CORLI ont porté sur l’annotation de corpus. Vous trouverez la liste de ces formations ainsi que les supports de cours disponibles ici.
Vous souhaitez réaliser des annotations dans un corpus, voici les grandes étapes qu’il vous faudra suivre :
- vérifier que votre corpus soit proposé dans un format éditable, ouvert et non propriétaire comme par ex. un format .txt, .xml ou .json. Les documents au format .doc, .pdf, .docx, etc. doivent être préparés pour pouvoir être annoter
- définir un schéma d’annotation : définition des objets à annoter (unités, relations, structures complexes), des types d’unités linguistiques concernées (caractères, mots, énoncés, paragraphes, unités de nature indéfinie), des caractéristiques à associer aux objets annotés
- choisir un outil d’annotation (si possible, après en avoir testé plusieurs)
- rédaction du guide d’annotation
- test du guide à plusieurs sur un même texte
- confrontation des annotations pour stabiliser la version finale du guide
- sélection et formation des annotateurs (il est bienvenu de proposer une première annotation qui pourra être comparée à une version de référence, par exemple le texte utilisé pour stabiliser le guide)
- annotation
- vérification de la qualité des annotations, notamment par le calcul de l’accord inter-annotateurs
- si possible, production d’une version adjudiquée (version de référence dans laquelle les désaccords auront été tranchés)
- description des annotations recueillies
- si possible ajout dans le guide d’annotation de nouveaux exemples (notamment des exemples d’incertitudes et de désaccords) et des témoignages des annotateurs
De nombreux outils dédiés à l’annotation de corpus sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Annotation).
Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment :
Différents outils dédiés à l’annotation de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Annotation) et par nature des données (Données=Audio/Vidéo).
Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment :
-
- ELAN, un logiciel de création d’annotations complexes sur les ressources vidéo et audio
Toute entreprise d’annotation doit s’accompagner de la rédaction d’un guide d’annotation détaillant les décisions prises concernant l’annotation du corpus, les objets linguistiques devant être identifiés par les annotateurs, les catégories pouvant leur être assignées, etc.
Pour écrire un guide d’annotation, il peut être utile de consulter d’autres guides rédigés dans les règles de l’art. C’est pourquoi le CORLI répertorie des guides d’annotations réalisés lors de campagnes d’annotations très diverses, ainsi que des articles scientifiques traitant de l’annotation de corpus. Ils peuvent être consultés sur cette page.
Afin de vérifier la qualité des annotations, il est primordial d’évaluer l’accord inter-annotateurs. Pour cela, on compare les annotations de multiples annotateurs auxquels on a soumis les mêmes données. Le score le plus communément utilisé pour évaluer l’accord inter-annotateurs est le Kappa de Cohen.
Dans le cadre du projet Annotation du consortium CORLI 2022-2025 et d’un projet étudiants inscrits dans le master de Sciences du Langage LITL (Toulouse), des fiches ont été réalisées pour prendre en main et annoter avec la plateforme d’annotation INCEpTION.
Explorer / analyser un corpus
De nombreux outils dédiés à l’exploration et à l’analyse de corpus sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Analyse).
Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment :
- CLAN, un logiciel permettant l’analyse de données transcrites dans le format CHILDES
Différents outils dédiés à l’exploration et à l’analyse de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Analyse) et par nature des données (Données=Audio/Vidéo).
Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment :
- CLAN, un logiciel permettant l’analyse de données transcrites dans le format CHILDES
Corpus oraux et multimodaux
Tous les formats ne sont pas appropriés pour stocker les données d’un corpus. En effet, il est primordial que les données soient enregistrées dans un format structuré et normalisé, afin de pouvoir être exploitées automatiquement.
- La page suivante fait le point sur les formats : Formats de l’oral et de la multimodalité
- L’outil TEI-CORPO permet de convertir des fichiers aux formats Elan, Clan, Transcriber et Praat vers la TEI et vice-versa
Différents outils dédiés à l’annotation de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Annotation) et par nature des données (Données=Audio/Vidéo).
Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment :
-
- ELAN, un logiciel de création d’annotations complexes sur les ressources vidéo et audio
Différents outils dédiés à l’exploration et à l’analyse de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Analyse) et par nature des données (Données=Audio/Vidéo).
Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment :
- CLAN, un logiciel permettant l’analyse de données transcrites dans le format CHILDES
Corpus bilingues et multilingues
Les corpus bilingues et multilingues sont très courants dans les études linguistiques et sont pertinents pour les chercheurs qui travaillent, entre autres, en linguistique historique, en acquisition des langues, en variation, en études dialectales et typologiques. Typiquement, on distingue deux types de corpus bilingues/multilingues : les corpus comparables et les corpus parallèles. Souvent de taille modeste, par rapport aux corpus du domaine général, les corpus comparables et parallèles sont spécialisés et construits pour répondre à des besoins spécifiques ou à des questions de recherche particulières.
Corpus comparables bilingues/multilingues : Dans ce type de corpus, les langues cibles sont réunies sur la base de la « comparabilité ». Ces corpus sont constitués de textes, de productions orales ou multimodales de locuteurs des langues étudiées, qui partagent des critères similaires de composition, de genre et de sujet, mais qui ne sont pas des traductions directes les unes issues des autres.
Corpus parallèles bilingues/multilingues : Dans ce type de corpus, les langues cibles sont étudiées en parallèle. Ces corpus se composent de textes, de productions orales ou multimodales en langue A et de leur traduction en langue B, C, D etc. et/ou de leurs combinaisons. La relation entre les textes dans les langues cibles est directe et mono-directionnelle, c’est-à-dire qu’elle va d’un texte (le texte source) à l’autre (le(s) texte(s) traduit(s)) et nécessite un minimum d’alignement.
Pour plus d’informations sur les corpus bilingues/multilingues, voir Barrière (2016) : [ici].
Pour plus d’informations sur les principaux problèmes liés aux corpus bi-/multilingues et des exemples/démonstrations de collecte de données, d’annotation, d’exploration, d’analyse et de stockage de ces corpus selon les principes de données FAIR voir [ici] et [ici].
Références
BARRIERE, C. (2016). Bilingual Corpora. In: Natural Language Understanding in a Semantic Web Context. Springer, Cham. https://doi.org/10.1007/978-3-319-41337-2_7
Les principes de données FAIR font référence à un ensemble de principes qui visent à rendre les données trouvables, accessibles, interopérables et réutilisables. Le terme FAIR a été proposé par Wilkinson et al. (2016) dans un article accessible [ici].
L’un des défis les plus importants de la science guidée par les données (usage-based) est la manière dont les chercheurs partagent leurs connaissances. La connaissance passe par l’exploitation de données qui doivent être collectées, analysées et stockées. Partager les connaissances de manière FAIR signifie rendre accessibles, interopérables, et analysables les données scientifiques, ainsi que les algorithmes et les métadonnées qui leur sont associés.
Rendre les données trouvables signifie qu’elles sont décrites à l’aide de métadonnées riches qui précisent l’identifiant des données, qu’un identifiant unique et permanent leur est attribué et qu’elles sont enregistrées ou indexées dans une ressource consultable.
Rendre les données accessibles signifie que les données et leurs métadonnées peuvent être récupérées par leur identifiant à l’aide d’un protocole de communication standardisé, que ce protocole est ouvert, gratuit et universellement applicable, et qu’il prévoit une procédure d’authentification et d’autorisation, le cas échéant.
Rendre les données interopérables signifie qu’un langage formel, accessible, partagé et largement applicable pour la représentation des connaissances sous d’autres formats est utilisé, y compris des références à d’autres (méta)données associées.
Rendre les données réutilisables signifie que les (méta)données possèdent une pluralité d’attributs précis et pertinents, sont publiées avec une licence d’utilisation claire et accessible, associées à leur source et répondent aux normes du domaine.
Pour plus d’informations sur les principes FAIR et les recommandations pour rendre vos données FAIR, voir [ici].
Références
WILKINSON, M., DUMONTIER, M., AALBERSBERG, I. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018. https://doi.org/10.1038/sdata.2016.18
L’alignement dans les corpus parallèles : c’est une opération qui permet d’expliciter les correspondances entre les segments de langue en termes d’équivalence de traduction. Un corpus parallèle est constitué d’un texte et de sa traduction dans une ou plusieurs langues. Afin d’aligner des corpus parallèles, le texte doit être divisé en segments. Un segment correspond généralement à une phrase. L’alignement fait référence aux informations qui indiquent à la machine quel segment (phrase) dans une langue est la traduction de quel autre segment dans une autre. Les systèmes de gestion de corpus comme les concordanciers sont des outils qui permettent d’extraire des mots/constructions cibles dans des corpus alignés parallèles (par exemple, Sketch Engine, NoSketch engine) – voir par exemple Rychly (2007) et Kilgarriff (2014).
Pour télécharger des corpus parallèles alignés (bilingues et multilingues), voir [ici].
Pour accéder à un concordancier de corpus parallèles alignés, voir [ici].
L’alignement dans des corpus comparables : c’est une opération qui permet d’expliciter les correspondances entre un enregistrement (généralement un enregistrement audio ou vidéo) et une transcription textuelle de telle sorte que les phonèmes, mots, phrases ou segments de discours sélectionnés comme cibles et le signal (audio/vidéo) soient mis en relation. Cette procédure est facile lorsque les chercheurs travaillent avec un discours bien organisé, avec peu ou pas de chevauchements.
Pour un exemple d’alignement audio/vidéo-transcription avec le logiciel CLAN, voir [ici].
Pour un exemple d’alignement avec le logiciel PRAAT, voir [ici] (anglais) et [ici] (français).
Références
- RYCHLÝ, Pavel. Manatee/Bonito-A Modular Corpus Manager. In: RASLAN. 2007. p. 65-70.
- KILGARRIFF, Adam, et al. The Sketch Engine: Ten Years on. Lexicography, 2014, 1.1: 7-36.
Les données multilingues d’un même corpus doivent être représentées dans des formats spécifiques. Leur représentation dépend d’un schéma qui assure la distinction entre les langues. Cette distinction dépend de l’organisation interne des données, c’est-à-dire de leur format. Les formats sont intimement liés aux outils qui permettent de représenter les données et de produire les fichiers.
La Text Endocing Initiative (TEI) développe un cadre pour la représentation numérique des données orales et écrites au format XML. L’objectif est de fournir aux transcripteurs de corpus un ensemble de directives pour coder les caractères de différentes langues, identifier la langue des données et décrire les données indépendamment de la langue. L’objectif est de rendre les données lisibles par machine.
Pour y parvenir, différents niveaux de traitement des données ont été définis par le consortium. Au niveau du jeu de caractères, la norme Unicode a été adoptée et permet l’encodage universel de (presque) tous les glyphes utilisés dans les langues humaines. Pour la transcription des contenus, la structure d’un document TEI permet d’identifier la langue du document et également les glyphes d’autres langues lorsqu’ils existent dans le texte. Un document TEI est composé de deux parties :
- la partie « TeiHeader » dans laquelle l’identification de la langue se trouve comme attribut. D’autres métadonnées telles que le titre, les informations sur la publication, etc. peuvent également être trouvées dans cette partie.
- la partie « text » comprend toutes les informations décrivant le texte. Cela inclut les extraits correspondant à d’autres langues que celle initialement déclarée dans le document. Elle comprend également une caractérisation des données qui peuvent être divisées avec un élément de division « div » pour décrire ce que « font » les chaînes de texte. Par exemple, une division peut indiquer un chapitre. La TEI permet d’affiner la description des éléments textuels en proposant des composantes « structurelles » sous forme d’éléments de paragraphe, de phrases, de vers ou de tours de parole dans un dialogue. Toutes ces informations permettent de caractériser les textes d’un corpus avec un schéma identique quelle que soit la langue. Des requêtes identiques peuvent alors traiter tous les textes d’un corpus multilingue au format TEI.
De nombreux outils de transcription offrent des interfaces conviviales (voir Section 5). La plupart de ces outils formatent les données en XML et permettent des alignements entre le signal, les couches de transcription/traduction et les couches d’annotation. Le langage XML et la structuration TEI, le codage Unicode, les segments multilingues possibles avec des limites identiques rendent les fichiers interopérables. Des utilitaires de conversion de fichier à fichier tels que TEI-corpo (Parisse et al. 2020) ou Pepper (Zipser & Romary, 2010) assurent la compatibilité TEI. Ces formats communs permettent le traitement de données multilingues.
Le format CoNNL-U est une autre manière de mettre en forme les données textuelles et leurs annotations Universal Dependencies (UD) (de Marneffe et al. 2021). Il consiste en un fichier texte dans lequel les mots sont divisés en lignes. Chaque ligne contient les mots et un certain nombre d’annotations. Certaines lignes peuvent être réservées à des commentaires. Ce format est conçu pour être lisible par une machine et peut être appliqué à des corpus comparables.
Références:
- Burnard, L. (2014). What Is the Text Encoding Initiative? : How to Add Intelligent Markup to Digital Resources. Marseille: OpenEdition Press. https://books.openedition.org/oep/426
- TEI Consortium (Eds.). TEI P5 : Guidelines for Electronic Text Encoding and Interchange. TEI Consortium. Consulté 11 octobre 2022, à l’adresse http://www.tei-c.org/Guidelines/P5/
- Zipser, F. & Romary, L. (2010). A model oriented approach to the mapping of annotation formats using standards. In: Proceedings of the Workshop on Language Resource and Language Technology Standards, LREC 2010. Malta. URL: http://hal.archives-ouvertes.fr/inria-00527799/en/
- de Marneffe, M.-C., Manning, C. D., Nivre, J., & Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2), 255‑308. https://doi.org/10.1162/coli_a_00402
Parisse, C., Etienne, C., & Liégeois, L. (2020). TEICORPO : A conversion tool for spoken language transcription with a pivot file in TEI. Journal of the Text Encoding Initiative. https://halshs.archives-ouvertes.fr/halshs-03043572. URL for web interface: https://ct3.ortolang.fr/teiconvert/index-fr.html
Il existe de nombreux outils disponibles sur le marché pour annoter les corpus. Si les corpus doivent être parallèles ou comparables, leurs schémas d’annotation, ou tout du moins certaines couches d’annotation, doivent être identiques afin de permettre les comparaisons entre les éléments de données. Par exemple, on peut vouloir extraire tous les noms d’un corpus bilingue, ce qui implique l’utilisation des mêmes étiquettes POS dans les deux langues. Par conséquent, pour être multilingue, un schémas d’annotation doit être applicable aux données de différentes langues.
Dans le cas de l’annotation automatique, il existe un certain nombre d’outils qui appliquent des schémas d’annotation identiques sur des données multilingues. Dans le cas de l’annotation grammaticale, le projet Universal Dependencies (UD) (de Marneffe et al. 2021) vise à développer un cadre incluant les parties du discours, les caractéristiques morphologiques et les dépendances syntaxiques dans différentes langues. Il est possible d’appliquer le schéma automatiquement avec des outils tels que UDpipe et Spacy, qui sont deux bibliothèques implémentées en Python et R. L’existence d’outils automatisés dépend du niveau d’analyse requis.
Dans le cas de l’annotation manuelle, un certain nombre de schémas ont été conçus pour les corpus multilingues. Les guides d’utilisation décrivent quelles langues et quels niveaux d’analyse sont pris en compte. Par exemple, l’analyse du discours peut nécessiter l’annotation des relations discursives utilisées pour exprimer la causalité ou le contraste. Sous réserve d’un accord sur le schéma et son fondement théorique, les codes peuvent être appliqués à des textes de langues différentes. Le projet ANNODIS (Péry-Woodley et al., 2011) offre des perspectives utiles à cet égard. Il décrit un certain nombre de relations rhétoriques entre entités et ces relations existent également dans d’autres langues, ce qui rend le système de codage transférable. De la même manière, le jeu de balises de sens conçu pour le projet Penn Discourse Treebank (Prasad et al., 2008) peut également être appliqué à d’autres langues que le français. De nombreux projets ont développé leur propre système d’encodage en fonction du niveau d’analyse visé. Pour une liste non exhaustive, veuillez consulter la section Guides d’annotation du site CORLI.
Selon la nature du corpus et les objectifs en termes d’annotation, les chercheurs peuvent être amenés à choisir un outil par rapport à un format. Ci-dessous se trouvent quelques exemples d’outils de corpus bi/multilingues comparables et parallèles et les types de fichiers qu’ils produisent. Le tableau suivant présente un certain nombre d’outils qui permettent plusieurs niveaux d’annotation. Il est important de noter que plusieurs de ces outils sont interopérables du point de vue de leurs formats de sortie (cf. Section 4) et que les fichiers peuvent être convertis automatiquement.
Tools | File types |
ELAN | .eaf |
EXMARALDA | .exb |
PRAAT | .textgrid |
CLAN | .cha |
TXM | .txm |
UDPipe | .conll |
Spacy | .conll |
Tableau: Outils d’annotation et leur type de fichier
Références :
- de Marneffe, M.-C., Manning, C. D., Nivre, J., & Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2), 255‑308. https://doi.org/10.1162/coli_a_00402
- Péry-Woodley, M.-P., Afantenos, S., Ho-Dac, L.-M., & Asher, N. (2011). La ressource ANNODIS, un corpus enrichi d’annotations discursives. Revue TAL, 52(3), 71‑101.
- Prasad, R., Dinesh, N., Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A., & Webber, B. (2008, mai). The Penn Discourse TreeBank 2.0. Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC’08). LREC 2008, Marrakech, Morocco. http://www.lrec-conf.org/proceedings/lrec2008/pdf/754_paper.pdf
Manuels pour la transcription et le codage des données bilingues/multilingues:
- Barnett, R., Codó, E., Eppler, E., Forcadell, M., Gardner-Chloros, P., van Hout, R., Moyer, M., Torras, M. C., Turell, M. T., Sebba, M., Starren, M., & Wensing, S. (2000). The LIDES Coding Manual: A document for preparing and analyzing language interaction data Version 1.1—July, 1999. International Journal of Bilingualism, 4(2), 131–132. https://doi.org/10.1177/13670069000040020101
- Soroli, E. & Tsikulina, A. (2020). Bilingual Discourse Analysis Manual (BILDA2-v2): a manual for transcription, coding and analysis of bilingual and second language learning data. [University report] University of Lille; CORLI Huma-Num consortium. ⟨hal-02567511⟩
Pour un guide pratique sur le codage de données, la vérification de sa validité et de sa fiabilité, voir [ici].
Outils proposés par l’infrastructure CLARIN-ERIC pour l’analyse de données : https://switchboard.clarin.eu/tools
Aspects juridiques
Si le corpus contient des données personnelles (c’est-à-dire des données identifiables directement ou indirectement), la publication du corpus (extraits ou intégralité) nécessite une anonymisation au préalable (des données textuelles, orales, ou audiovisuelles). Sinon, une restriction d’utilisation sera nécessaire (à définir avec le délégué à la protection des données compétent).
Consignes:
Avant toute création de corpus, il est recommandé d’établir un plan de gestion des données et de suivre les principes dits FAIR (afin de produire des données Faciles à trouver, Accessibles, Interopérables et Réutilisables).
Avant toute utilisation de corpus, il est recommandé de s’informer sur les licences associées et de prendre contact si possible avec les producteurs ou gestionnaires du ou des corpus concerné-s afin de vous informer sur les éventuelles restrictions.
Dans les deux cas, vous pouvez demander de l’aide auprès d’un personnel d’appui à la recherche (au sein des BU, MSH, directions de la recherche, etc.) ou en suivant une formation/auto-formation grâce aux ressources en ligne : ex. Doranum, webinaires de l’Inist
Le partage des ressources est primordial dans l’esprit d’une science ouverte telle que promue par CORLI. Lorsque les données collectées pour constituer un corpus proviennent de locuteurs, donc de personnes physiques, les informations personnelles et la propriété intellectuelle devraient être protégées. Dans certains cas, les données pertinentes pour l’analyse linguistique sont directement identifiantes (informations sur le locuteur, voix, image…) voire sensibles (opinions, origines, santé, etc.). Il y a donc un équilibre à trouver pour permettre la diffusion des corpus dans le respect de la législation et de l’éthique. Le groupe-réseau QuECJ a pour objectif d’informer et d’accompagner la communauté sur ces questions. Le CORLI met également à disposition différents documents concernant les bonnes pratiques juridiques sur cette page.
Le recueil du consentement est obligatoire sauf exceptions.
Il appartient au chercheur de justifier qu’il a obtenu un consentement non seulement à la collecte des données, mais également à leur traitement automatisé ou à leur diffusion sur tous les supports envisagés. La finalité du corpus devrait être clairement indiquée afin de garantir la qualité du consentement recueilli. Dans le cas où les données personnelles collectées relèvent de l’image de la personne (enregistrements vidéo), le droit à l’image s’applique et il est nécessaire d’obtenir une autorisation spécifique. Par ailleurs, toute divulgation d’informations relatives à la vie privée qui n’est pas expressément prévue n’est pas autorisée.
On appelle consentement éclairé le consentement obtenu après information préalable de la personne. Concernant les modalités de recueil du consentement, on choisira de préférence de recourir à un consentement écrit, avec l’utilisation d’un formulaire de consentement.
- Disponible sur la page Bonnes pratiques juridiques, le document “Protection des données personnelles, de la vie privée et de l’image” (Nathalie Mallet-Poujol, 2014) fait le point sur la nécessité d’un consentement et son recueil
- Sur la page de la formation Dépôt, conservation et diffusion de corpus, on peut trouver des exemples de formulaires de consentement éclairé