FAQ

Constituer un corpus

Comment collecter des données en vue de constituer un corpus ?
Les données utilisées en linguistique de corpus peuvent être de différentes natures : données écrites ou orales, mais aussi vidéos, captures de mouvements et d’oculométrie, etc. L’acquisition de données en vue de constituer un corpus doit être soigneusement préparée en amont et la méthode employée doit être bien définie et documentée afin d’assurer une certaine traçabilité. Il faudra notamment se poser la question du matériel nécessaire (dans le cas d’enregistrements), des outils à mobiliser, et des métadonnées à associer aux données collectées. Plus d’informations sur le site du CORLI : 
Qu’est-ce que les métadonnées et à quoi servent-elles ?

On désigne par métadonnées un ensemble d’informations que l’on décide de conserver en plus des données linguistiques à proprement parler, afin de les documenter et de faciliter la réutilisation du corpus par d’autres chercheurs. Ces informations peuvent être très diverses : sources des données, logiciels (et leur version exacte) utilisés pour la collecte ou le traitement des données, informations sur les locuteurs (âge, sexe, langue maternelle…) ou sur la situation de l’acquisition pour des données orales ou multimodales, etc.

Un point très important est que les métadonnées devraient être standardisées, c’est-à-dire exprimées selon un standard international accepté par la communauté scientifique. Comme les pratiques sont, aujourd’hui encore, très hétérogènes, le CORLI mène une action de valorisation des corpus qui vise à finaliser la mise en forme de corpus existants en suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable).

Plus de ressources sur le site du CORLI : 

Pourquoi et comment évaluer la qualité d’un corpus ?

La mutualisation des corpus, et le respect des bonnes pratiques que cela induit, rendent la constitution de corpus très coûteuse. Il faut considérer les corpus comme des productions scientifiques à part entière. Être en mesure d’évaluer leur qualité constitue donc un enjeu essentiel.

L’évaluation des corpus est une problématique très importante au sein du CORLI :

Pourquoi et comment déposer mon corpus ?

Plusieurs raisons incitent à déposer son corpus. D’une part, la constitution d’un corpus est un processus très coûteux ; il est donc important de mutualiser cet effort pour en faire bénéficier d’autres chercheurs ; en effet, il pourrait donner lieu à de nouvelles analyses. D’autre part, les données qui constituent un corpus ont parfois une valeur patrimoniale (par exemple pour la documentation de langues rares) qui les rend précieuses et suffit à rendre souhaitable leur archivage. Enfin, le dépôt des données répond à une problématique de contrôle et d’évaluation de la recherche : tout travail expérimental doit pouvoir être reproduit, et la mise à disposition des corpus (ainsi que celle de leur documentation et éventuellement des outils ayant permis de les analyser) est une condition sine qua non pour assurer cette reproductibilité.

Pour déposer un corpus, il est préférable que ce dernier soit mis en forme d’une façon conforme aux standards internationaux (TEI et autres formats XML adaptés, etc.) et qu’il soit décrit par des métadonnées elles aussi standardisées. Le corpus déposé devrait respecter les principes FAIR :  Findable, Accessible, Interoperable, Reusable. C’est pourquoi le CORLI mène une action qui vise à financer la finalisation de corpus de manière à respecter ces principes, afin que ces derniers puissent être déposés et valorisés.

Le dépôt d’un corpus peut se faire sur des sites spécialisés ; en France, on trouve notamment les sites COCOON et ORTOLANG.

Plus de ressources sur le site du CORLI : 

Quels formats pour les données orales ou multimodales ?

Tous les formats ne sont pas appropriés pour stocker les données d’un corpus. En effet, il est primordial que les données soient enregistrées dans un format structuré et normalisé, afin de pouvoir être exploitées automatiquement. 

Annoter un corpus

Que signifie annoter un corpus ?

Annoter un corpus, c’est ajouter une ou plusieurs couches d’interprétation linguistique aux données brutes. Les annotations ajoutées peuvent être de natures très diverses : il peut s’agir de catégories morpho-syntaxiques, d’annotations sémantiques ou discursives, mais également, dans le cas de corpus oraux ou multi-modaux, d’informations sur la prosodie, les gestes, etc.

Les annotations sont réalisées lors de campagnes d’annotation par des annotateurs humains, plus ou moins experts, qui s’appuient sur un guide d’annotation.

Plus de ressources sur le site du CORLI :

  • Le groupe-réseau 5 du CORLI est consacré aux problématiques liées à l’annotation de corpus. Vous pouvez vous inscrire à sa liste de diffusion.
  • Plusieurs formations organisées par les membres du CORLI ont porté sur l’annotation de corpus. Vous trouverez la liste de ces formations ainsi que les supports de cours disponibles ici
Quelles sont les grandes étapes d’une campagne d’annotation ?

Vous souhaitez réaliser des annotations dans un corpus, voici les grandes étapes qu’il vous faudra suivre :

  • vérifier que votre corpus soit proposé dans un format éditable, ouvert et non propriétaire comme par ex. un format .txt, .xml ou .json. Les documents au format .doc, .pdf, .docx, etc. doivent être préparés pour pouvoir être annoter
  • définir un schéma d’annotation : définition des objets à annoter (unités, relations, structures complexes), des types d’unités linguistiques concernées (caractères, mots, énoncés, paragraphes, unités de nature indéfinie), des caractéristiques à associer aux objets annotés
  • choisir un outil d’annotation (si possible, après en avoir testé plusieurs)
  • rédaction du guide d’annotation
  • test du guide à plusieurs sur un même texte
  • confrontation des annotations pour stabiliser la version finale du guide
  • sélection et formation des annotateurs (il est bienvenu de proposer une première annotation qui pourra être comparée à une version de référence, par exemple le texte utilisé pour stabiliser le guide)
  • annotation
  • vérification de la qualité des annotations, notamment par le calcul de l’accord inter-annotateurs
  • si possible, production d’une version adjudiquée (version de référence dans laquelle les désaccords auront été tranchés)
  • description des annotations recueillies
  • si possible ajout dans le guide d’annotation de nouveaux exemples (notamment des exemples d’incertitudes et de désaccords) et des témoignages des annotateurs
Quels outils sont disponibles pour réaliser des annotations sur mon corpus ?

De nombreux outils dédiés à l’annotation de corpus sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Annotation).

Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment : 

  • ELAN, un logiciel de création d’annotations complexes sur les ressources vidéo et audio 
  • Glozz, un environnement d’annotation et d’exploration de corpus textuels
  • InCEPTION, plateforme pour l’annotation collaborative multi-niveau
Quels outils sont disponibles pour réaliser des annotations sur mon corpus oral ou multimodal ?

Différents outils dédiés à l’annotation de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Annotation) et par nature des données (Données=Audio/Vidéo).

Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment : 

    • ELAN, un logiciel de création d’annotations complexes sur les ressources vidéo et audio 
Comment aborder la rédaction d’un guide d’annotation ?

Toute entreprise d’annotation doit s’accompagner de la rédaction d’un guide d’annotation détaillant les décisions prises concernant l’annotation du corpus, les objets linguistiques devant être identifiés par les annotateurs, les catégories pouvant leur être assignées, etc.

Pour écrire un guide d’annotation, il peut être utile de consulter d’autres guides rédigés dans les règles de l’art. C’est pourquoi le CORLI répertorie des guides d’annotations réalisés lors de campagnes d’annotations très diverses, ainsi que des articles scientifiques traitant de l’annotation de corpus. Ils peuvent être consultés sur cette page.

Comment évaluer la qualité des annotations ?

Afin de vérifier la qualité des annotations, il est primordial d’évaluer l’accord inter-annotateurs. Pour cela, on compare les annotations de multiples annotateurs auxquels on a soumis les mêmes données. Le score le plus communément utilisé pour évaluer l’accord inter-annotateurs est le Kappa de Cohen.

Comment utiliser la plateforme INCEpTION ?

Dans le cadre du projet Annotation du consortium CORLI 2022-2025 et d’un projet étudiants inscrits dans le master de Sciences du Langage LITL (Toulouse), des fiches ont été réalisées pour prendre en main et annoter avec la plateforme d’annotation INCEpTION.

Lire plus

Explorer / analyser un corpus

Quels outils sont disponibles pour l’exploration ou l’analyse de mon corpus ?

De nombreux outils dédiés à l’exploration et à l’analyse de corpus sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Analyse).

Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment : 

  • CLAN, un logiciel permettant l’analyse de données transcrites dans le format CHILDES 
Quels outils sont disponibles pour l’exploration ou l’analyse de mon corpus oral ou multimodal ?

Différents outils dédiés à l’exploration et à l’analyse de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Analyse) et par nature des données (Données=Audio/Vidéo).

Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment : 

  • CLAN, un logiciel permettant l’analyse de données transcrites dans le format CHILDES 

Corpus oraux et multimodaux

Quels formats pour les données orales ou multimodales ?

Tous les formats ne sont pas appropriés pour stocker les données d’un corpus. En effet, il est primordial que les données soient enregistrées dans un format structuré et normalisé, afin de pouvoir être exploitées automatiquement. 

Quels outils sont disponibles pour réaliser des annotations sur mon corpus oral ou multimodal ?

Différents outils dédiés à l’annotation de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Annotation) et par nature des données (Données=Audio/Vidéo).

Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment : 

    • ELAN, un logiciel de création d’annotations complexes sur les ressources vidéo et audio 
Quels outils sont disponibles pour l’exploration ou l’analyse de mon corpus oral ou multimodal ?

Différents outils dédiés à l’exploration et à l’analyse de corpus oraux ou multimodaux sont répertoriés dans l’inventaire des outils ; pour en obtenir la liste complète, vous pouvez filtrer les outils par type (Type=Analyse) et par nature des données (Données=Audio/Vidéo).

Certains de ces outils ont été présentés lors de formations proposées par le CORLI, notamment : 

  • CLAN, un logiciel permettant l’analyse de données transcrites dans le format CHILDES 

Aspects juridiques

Quelles sont les questions juridiques et éthiques posées par la collecte de données puis leur mise à disposition sous forme de corpus ?

Le partage des ressources est primordial dans l’esprit d’une science ouverte telle que promue par le CORLI. Mais les données collectées pour constituer un corpus proviennent de locuteurs, donc de personnes physiques dont les informations personnelles devraient être protégées. Dans certains cas, des données sensibles sont aussi pertinentes pour l’analyse linguistique (informations sur le locuteur, voix, image…). Il y a donc un équilibre à trouver pour permettre la diffusion des corpus dans le respect de la législation et de l’éthique. Le groupe-réseau 4 QuECJ a pour objectif d’informer et d’accompagner la communauté sur ces questions. Le CORLI met également à disposition différents documents concernant les bonnes pratiques juridiques sur cette page.

Dois-je disposer d’un consentement des locuteurs pour collecter les données de mon corpus ? Comment le recueillir ?

Il appartient au chercheur de justifier qu’il a obtenu un consentement non seulement à la collecte des données, mais également à leur traitement automatisé ou à leur diffusion sur tous les supports envisagés. La finalité du corpus devrait être clairement indiquée afin de garantir la qualité du consentement recueilli. Dans le cas où les données personnelles collectées relèvent de l’image de la personne (enregistrements vidéo), le droit à l’image s’applique et il est nécessaire d’obtenir une autorisation spécifique. Par ailleurs, toute divulgation d’informations relatives à la vie privée qui n’est pas expressément prévue n’est pas autorisée.

On appelle consentement éclairé le consentement obtenu après information préalable de la personne. Concernant les modalités de recueil du consentement, on choisira de préférence de recourir à un consentement écrit, avec l’utilisation d’un formulaire de consentement.