Quelles consignes, quels textes régulent la création et l’utilisation de corpus ?

Consignes: Avant toute création de corpus, il est recommandé d’établir un plan de gestion des données et de suivre les principes dits FAIR (afin de produire des données Faciles à trouver, Accessibles, Interopérables et Réutilisables).  Avant toute utilisation de corpus, il est recommandé de s’informer sur les licences associées et de prendre contact si possible … Lire plus

Dois-je anonymiser mon corpus ?

Si le corpus contient des données personnelles (c’est-à-dire des données identifiables directement ou indirectement), la publication du corpus (extraits ou intégralité) nécessite une anonymisation au préalable (des données textuelles, orales, ou audiovisuelles). Sinon, une restriction d’utilisation sera nécessaire (à définir avec le délégué à la protection des données compétent).

Dois-je disposer d’un consentement des locuteurs pour collecter les données de mon corpus ? Comment le recueillir ?

Le recueil du consentement est obligatoire sauf exceptions. Il appartient au chercheur de justifier qu’il a obtenu un consentement non seulement à la collecte des données, mais également à leur traitement automatisé ou à leur diffusion sur tous les supports envisagés. La finalité du corpus devrait être clairement indiquée afin de garantir la qualité du … Lire plus

Quelles sont les questions juridiques et éthiques posées par la collecte de données puis leur mise à disposition sous forme de corpus ?

Le partage des ressources est primordial dans l’esprit d’une science ouverte telle que promue par CORLI. Lorsque les données collectées pour constituer un corpus proviennent de locuteurs, donc de personnes physiques, les informations personnelles et la propriété intellectuelle devraient être protégées. Dans certains cas, les données pertinentes pour l’analyse linguistique sont directement identifiantes (informations sur … Lire plus