Quelles sont les questions juridiques et éthiques posées par la collecte de données puis leur mise à disposition sous forme de corpus ?

Le partage des ressources est primordial dans l’esprit d’une science ouverte telle que promue par le CORLI. Mais les données collectées pour constituer un corpus proviennent de locuteurs, donc de personnes physiques dont les informations personnelles devraient être protégées. Dans certains cas, des données sensibles sont aussi pertinentes pour l’analyse linguistique (informations sur le locuteur, voix, image…). Il y a donc un équilibre à trouver pour permettre la diffusion des corpus dans le respect de la législation et de l’éthique. Le groupe-réseau 4 QuECJ a pour objectif d’informer et d’accompagner la communauté sur ces questions. Le CORLI met également à disposition différents documents concernant les bonnes pratiques juridiques sur cette page.