Réunion du 28 juin 2012

Quand

28/06/2012    
10h30 - 16h00

Institut de Linguistique Française – FR 2393
44, rue de l’Amiral Mouchez, PARIS, 75014

Présents : Chanier, Poudat, Bertucci, Turpin, Longhi, Ledegen, Doquet, Antoniadis, Ben Hamed, David, Namer, Panckhurst, Cislaru, Gauthier, Sagot, Falaise, Kyriacopoulou, Hriba

Objectifs


Rappelons que les objectifs de cette réunion sont, outre le fait de nous mieux connaître, de :

  • Progresser dans une intercompréhension de la terminologie propre aux corpus et , en particulier de ceux contenant des productions liées aux nouvelles formes de communication
  • Définir des axes de travail et de projets pour 2013
  • Faire remonter des besoins au niveau de l’IR-corpus général

N’hésitez pas à venir avec quelques diapos illustrant (de façon didactique) des points qui vous tiennent à coeur.

Programme


Céline et Thierry vous proposent le menu suivant :

  • 10h : accueil des participants
  • 10h30 : début des travaux
  • 10h30-11h30 : tour de table en commun sur les objectifs / thématiques de recherche des participants diposant ou constituant des corpus à bases de données provenant des nouvelles formes de communication
  • 11h30-12h30 : présentation, suivi d’une discussion de Benoît Sagot sur l’annotation morpho-syntaxique (en parties du discours) de corpus non-standard. Deux corpus seront décrits: un corpus de données orales transcrites et annotées manuellement en parties du discours (TCOF-POS) et un corpus arboré en cours de constitution à partir de données issues du web (forums de discussion, réseaux sociaux). Bien que de natures en partie différentes, ces corpus ont notamment pour caractéristiques de présenter des formes et des structures non standard. Ils sont également librement disponibles (le corpus arboré le sera une fois terminé). Benoît présentera notamment la chaîne de traitement utilisée pour pré-annoter ces corpus (segmentation en “phrases” et en mots, étiquetage morpho-syntaxique avec MElt), et qui peut à son tour être adaptée à des données non-standard grâce aux annotations manuelles finales. La description de chaîne de traitements permettra d’illustrer un certain nombre de points qui feront l’objet de nos discussions ultérieures.
  • 12h30-13h30 : repas sur place
  • 13h30-14h30 : travail en 2 groupes . L’idée est la suivante. Chaque participant choisit de participer à l’un des 2 groupes, qu’il soit spécialiste ou non de la question. Si possible des personnes d’une même équipe vont dans des groupes différents. Le groupe étant limité à environ 8 personnes, les échanges pourront être plus interactifs. Chaque groupe désigne un rapporteur pour la mise en commun à 14h30.
    • groupe 1 :
      • a) collecte et structuration des données en vue d’en faire des corpus échangeables et analysables manuellement et automatiquement. On pourra discuter de l’intérêt d’adopter une structure générale commune pour les textos, twits, blogues, clavardages (chats), etc.
      • b) diffusion, partage, pérennisation des corpus nouv-com. Ici on pourra aborder des points se rapportant (en vrac) aux conditions de recueil et collecte (éthique, droit, anonymisation), licence d’utilisation, métadonnées, Clarin, Tge-Adonis, etc.
    • groupe 2 : exploration, traitements et analyses de corpus nouv-com
  • 14h30-15h15 : rapports des groupes et discussions
  • 15h15-16h : rapport d’activité du groupe pour septembre, perspectives de montage de projets de recherche (avec quels financements ?), thématiques de travail du groupe pour 2013 …
  • 16h : fin de la journée

Compte rendu


Suite à la réunion du 28 juin, nous avons décidé de faire un rapide bilan sur certains points de façon à échanger des informations entre nous et préparer des thématiques pour l’activité 2013 du groupe nouvelles communications.

  • Le diaporama de Benoit sur l’annotation de corpus non standard est disponible ici.
  • questions de recherche abordés en début de réunion : merci de mettre à jour ces informations dans la description de vos corpus / projet

Vers les pages thématiques

Calendrier et travaux pour 2013

N’hésitez pas à modifier / ajouter suivant vos besoins / ressentis.

  • Septembre 2012 : Rapport du groupe à rendre à l’IR-corpus
  • Décembre : réunion générale de tous les participants à l’IR corpus-écrits (comme l’an passé). Les activités des groupes y seront présentés.

Perspectives pour 2013

Ces différents points seront l’objet de discussions spécifiques sur notre liste interne du groupe nouv-com

  • projets de recherche : plusieurs personnes appartenant à des unités de recherche ont manifesté l’envie de travailler ensemble sur des projets de recherche labellisés scientifiquement. Ce type de projet nécessite non seulement des frais de missions, mais également des ressources pour organiser les données, les traiter, donc un financement spécifique. Des projets inter-mSH étaient orientés cette année ver la préparation de tels projets., notamment le dépôt de projets ANR-Corpus. Or, du fait du changement de gouvernement, le milieu est dans l’expectative pour savoir si l’ANR Corpus, pourtant promise existera ou non. Des réunions au niveau du ministère auront lieu en novembre 2012.
  • données disponibles déjà diffusables . Les textes d’orientation de tous les IR corpus indiquaient dans les critères d’évaluation de ces programmes la nécessité pour les chercheurs français de déclarer des milliers de ressources (données de recherche) dans CLARIN de façon à faire ressortir au niveau européen la contribution française. Même si nous ne sommes pas là pour “faire du chiffre”, notre groupe dispose déjà de nombreuses données qui pourraient faire l’objet de déclaration dans CLARIN. Linda, ingénieur de l’IR corpus-écrits va nous recontacter à ce sujet. On pourrait avoir comme objectif en 2013 de déclarer ainsi une partie de nos données. Voir par exemple pour Mulce déclaré dans CLARIN .
  • corpus de référence du français : une réunion de l’IR corpus s’est tenu en juin 2012 en vue de constituer un corpus de référence du français. Il serait intéressant d’introduire dans ce corpus les données provenant des nouvelles formes de communication. La très grande majorité des données disponibles dans notre groupe sont en français. Certains membres du groupe devraient donc participer aux prochaines réunions de ce projet de façon à signaler notre contribution potentielle au projet national. Ces données, comme les précédentes devront être en accès libre et libres de droit.
  • En 2013, une activité du groupe pourrait se concentrer sur l’intégration des structures des différentes formes de communication (Twitt, blogues, textos, clavardage / chats, forums, etc.) dans la TEI.

Demandes de formations en 2013

En 2012 l’IR corpus et TGE Adonis (qui fusionnent) ont peu investi dans les formations. Il compte faire un effort particulier en ce sens en 2013. Notre groupe pourrait donc demander des formations spécifiques (ouvertes à tus les membres de l’IR corpus de tous les groupes). Pour une partie de ces formations, il serait plus intéressant de les prévoir sur une journée. Le temps passé est limité, la formation peut-être reproduite de façon à permettre à un plus grand nombre d’y participer (au contraire des écoles d’été ou formation sur une semaines pour les projets SHS de numérisation, certes intéressantes mais par nature limitées).

Discutons / listons ici les formations dont on aurait besoin. Merci pour ceux intéressés d’indiquer vos noms ici

  • Journée sur processus d’annotation : à partir de corpus disponibles à l’avance et d’outils (logiciels libres d’annotation), mettre en oeuvre une chaîne de traitement, avec segmentation, annotation morpho-syntaxique, voire plus.
    • personnes intéressées :
  • Formation TEI : le TGE Adonis accepte de se déplacer aimablement pour organiser localement une telle formation.
  • Autre formation ?