Programme scientifique du consortium « CORLI »

 
 

Le consortium CORLI veut chercher à profiter de son expérience préalable pour continuer de structurer la communauté linguistique qui travaille autour des corpus. Cette expérience passée consiste en une écoute des besoins et des questions exprimés par la communauté. Lorsque c’est possible, le consortium cherche à répondre à ces attentes, ou à diffuser et favoriser les pratiques les plus efficaces et les plus utilisées.

Les domaines clés que le consortium considère comme à mettre en avant sont les suivants :

 

  • Finalisation de corpus
  • Utilisation de standards communs dans les formats (métadonnées et données) et Outils et pratiques d’exploration de corpus
  • Multimodalité et nouvelles formes de communication
  • Dépôts et visibilité dans les entrepôts et à fins de pérennisation
  • Evaluation de la qualité des corpus
  • Droits et éthique dans les corpus
  • Formation et diffusion de l’information
  • Recensement des ressources

 

 

Le consortium « CORLI » essaie de répondre à ces objectifs avec une visée sur plusieurs années, sachant que d’une part certains domaines sont complexes et ne peuvent être résolus rapidement, et que d’autre part les implications des membres du consortium peuvent varier d’une année à l’autre. Pour répondre aux demandes d’Huma-Num, en connaissance des contraintes liées à la gestion de la recherche par les tutelles, nous faisons pour l’année 2017 les propositions suivantes.

 

1.Finalisation de corpus

 

Les linguistes ont créé depuis de nombreuses années des ressources encore inexploitées. Parfois, les projets n’ont pas inclus de dépôt de données, faute d’un consensus pratique ou d’information sur la réalisation des dépôts. Parfois les dépôts ne sont pas correctement localisés, ou dans des formats inadéquats. Les aides à finalisation de corpus ont pour but explicite d’aider les projets clos (financés ou non) à déposer leurs données. Les aides peuvent être de la simple information, ou de la mise en forme de données déjà finies. Dans tous les cas, il est exigé que le dépôt soit réalisé dans des formats standards, pour des données libres au moins pour la recherche. Enfin dans certains cas, notamment dans le cas de données rares, précieuses ou uniques, le comité de pilotage se réserve la possibilité de fournir une aide plus importante, y compris sur des données finalisées en partie seulement.

Le grand nombre de réponses à l’appel de 2016, nous incite à réitérer l’appel en 2017, à hauteur de la somme dépensée en 2017.

 

2. Utilisation de standards communs dans les formats (métadonnées et données) et Outils et pratiques d’exploration de corpus

 

Ce thème fait partie de l’un des groupes de travail les plus importants du consortium de linguistique, issu de la fusion de deux groupes précédents, l’un travaillant sur les métadonnées et l’édition de corpus, l’autre sur les pratiques, les méthodes et les outils d’exploration de corpus. Il nous est en effet rapidement apparu que ces deux aspects entretenaient des relations très fortes.

L’exploration de corpus est en effet adossée à des méthodes que l’on retrouve implémentées dans différents outils, qui dans la pratique admettent des formats d’imports variés : c’est un véritable problème pour l’utilisateur linguiste, qui doit régulièrement convertir son corpus suivant différents formats, avec les pertes que l’opération peut impliquer, ou affaiblir sa méthodologie en se limitant à l’exploitation d’un outil donné, du fait de ces difficultés de conversion et de compatibilité.

Dans cette perspective, prescrire un format commun pour les données et les métadonnées, qui soit compatible avec les pratiques et les méthodes courantes d’exploration des corpus, participerait de la résolution du problème. Ce processus, nous permettra, en lien avec le GP2 et les concepteurs d’outils, d’intégrer progressivement les corpus annotés oraux et multimodaux aux outils d’exploration de corpus usuels, en développant et en diffusant des parcours méthodologiques adaptés. Ces outils, issus de la linguistique de corpus et de l’analyse statistique de données textuelles, ont en effet été conçus pour explorer les corpus écrits.

C’est pour cela que nous avons proposé des ateliers de formation pour l’ensemble des outils. L’objectif de 2017 est de reproduire une partie de ces formations (en fonction des besoins exprimés par la communauté), mais aussi de chercher à former des formateurs.

Nous avons constitué une équipe de travail autour de la constitution de métadonnées orientées « recherche » pour d’une part favoriser la réutilisation des corpus existants en harmonisant leurs descripteurs et d’autre part concevoir un guide des bonnes pratiques pour les futurs corpus. Pour prendre en compte la diversité des corpus de linguistique, nous cherchons à définir un jeu modulaire commun de métadonnées qui puisse couvrir nos différentes thématiques, par exemple corpus oral vs. corpus écrit ou acquisition vs. sociolinguistique.

Par ailleurs, nous avons constaté qu’il y a un manque d’outils métiers appropriés au champ de la linguistique pour l’édition de métadonnées normalisées de qualité. Nous souhaitons donc lancer le développement d’un outil d’édition adapté à l’ensemble des thématiques de recherche où l’utilisateur serait guidé dans ses choix, avec la génération des données dans le format TEI et un export en Dublin Core/Olac des métadonnées d’archivage pour faciliter le dépôt dans Ortolang ou Cocoon.

Si l’harmonisation des corpus oraux a été étudiée dans les consortiums Ircom puis Corli, notamment avec l’apport du projet de recherche Orféo, le recensement des métadonnées utilisées dans les corpus écrits n’existe pas à ce jour et fera l’objet de la mise en place d’un stage de M2 de longue durée en 2017. 3

 

3. Multimodalité et nouvelles formes de communication

 

En 2017, l’activité du groupe de travail GP2 sera orientée vers les principaux axes suivants :

  • Etat des lieux des systèmes de transcriptions multimodaux, dont ceux pour la gestuelle et les langues des signes (LS)
  • Exploration des corpus multimodaux (en lien avec le GP1 et AT2): quels besoins, quelles méthodes et quels outils convoquer ? Les utilisateurs du groupe ont précédemment exprimé leur désir de se familiariser aux méthodes de la linguistique de corpus et de l’analyse statistique de données textuelles pour explorer leurs corpus annotés. Nous profiterons de la dynamique du groupe pour mettre en oeuvre et diffuser des parcours méthodologiques adaptés
  • Conduite d’une « feature request » TEI par le groupe de travail (SIG) TEI-CMC et le SIG Linguistique pour l’extension de la TEI à la communication médiée par ordinateur. cette procédure formelle permet de présenter un nouveau modèle, un ensemble de nouveaux éléments et attributs au consortium TEI en vue de sa modification.

■ l’objectif est d’arriver à une standardisation des corpus de communication médiée par les réseaux (CMC). Rappelons que le modèle TEI-CMC a déjà été utilisé pour structurer tous les corpus CoMeRe et les corpus CMC allemands.

■ cette extension TEI-CMC contient pour la première fois un élément encodant les interactions non verbales. Il est situé au même niveau que l’élément textuel <p> et l’élément pour l’oral <u>

  • Projet COST Corpora of computer-mediated communication for Digital Humanities and European Society (CMC4EU) :

■ soit pour lancement durant sa première année 2017, s’il est accepté après le dépôt en décembre 2016

■ soit une remise en forme pour re-soumission fin 2017, s’il n’a pas été retenu.

 

4. Dépôts et visibilité dans les entrepôts et à fins de pérennisation

 

Cet axe de travail très important devrait mener en 2017 à un atelier de formation au dépôt dans les entrepôts. Une autre possibilité de travail envisagé est la production de modèle de format « type » à suivre dans les dépôts (modèles de plusieurs types adaptés au type de travail linguistique mis en oeuvre) pour faciliter leur réutilisation et leur pérennisation.

 

5. Evaluation de la qualité des corpus

 

L’année 2016 a permis la mise en place d’une réunion de réflexion autour de l’évaluation des corpus. Ce besoin est en effet fondamental car il incite au dépôt réfléchi des données, mais aussi il permet de faire progresser la recherche dans une optique de transparence et réutilisabilité des données. Enfin, il s’agit d’une demande institutionnelle.

La convocation d’une réunion générale n’est pas forcément une procédure à mettre en place tous les ans. Une telle procédure est en effet lourde et peut amener à une érosion de la participation. Par contre, il pourrait être intéressant de diffuser sur cette question, en particulier en rédigeant des documents en concertation et en les diffusant sur le site du consortium.

 

6. Droits et éthique dans les corpus

 

La notion de droit évolue assez vite dans le domaine mais néanmoins beaucoup de résultats acquis dans les années précédentes des consortiums restent valides. Nous incitons donc à la diffusion meilleure des documents existants, en particulier aussi dans les sites de dépôts de données. Nous proposons aussi la réalisation de fiches d’exemples pour le dépôt de données ou la mise en place de projet.

 

7. Formations et diffusion de l’information

 

Pour l’année 2017, le consortium planifie l’organisation des formations suivantes, qui reprennent celles déjà organisées par le passé et qui rencontrent un succès certain auprès de la communauté scientifique:

  • Formation Arborescence, un jour et demi, à Grenoble, lors des JILC (Journées de la Linguistique de Corpus), (3 et 4 juillet): des ateliers sur la TEI, la formulation de requêtes à l’aide des expressions régulières, etc., organisée par Agnès Tutin et Amalia Todirascu.
  • L’atelier Exploration de corpus – quatre sessions d’une demi-journée présentant quatre outils d’exploration de corpus, organisé par Céline Poudat.
  • La formation TXM, deux jours, est organisée par Serge Heiden et Bénédicte Pincemin.
  • Trois formations dédiées à la notation, l’annotation et l’analyse de corpus multimodaux.

 

8. Recensement des ressources

 

Nous allons poursuivre le travail de développement de finalisation du portail de recensement mais sous la forme d’heures de vacations payées à une personne que nous sélectionnerons spécifiquement pour ce chantier.