Quelles sont les questions juridiques et éthiques posées par la collecte de données puis leur mise à disposition sous forme de corpus ? – Consortium HN CORpus, Langues et Interactions

Le partage des ressources est primordial dans l’esprit d’une science ouverte telle que promue par CORLI. Lorsque les données collectées pour constituer un corpus proviennent de locuteurs, donc de personnes physiques, les informations personnelles et la propriété intellectuelle devraient être protégées. Dans certains cas, les données pertinentes pour l’analyse linguistique sont directement identifiantes (informations sur le locuteur, voix, image…) voire sensibles (opinions, origines, santé, etc.). Il y a donc un équilibre à trouver pour permettre la diffusion des corpus dans le respect de la législation et de l’éthique. Le groupe-réseau QuECJ a pour objectif d’informer et d’accompagner la communauté sur ces questions. Le CORLI met également à disposition différents documents concernant les bonnes pratiques juridiques sur cette page.

Événements