Assemblée générale de corpus-écrits 2012

Date/heure
Date(s) - 23/11/2012
9h30 - 18h00

Emplacement
Campus des Cordeliers, Paris

Catégories


Infos générales sur Assemblée générale


  • Le vendredi 23 novembre 2012, de 9h30 à 18h, au Campus des Cordeliers (15, rue de l’Ecole de Médecine, 75006, Paris)
  • Le samedi 24 novembre : journée d’information et d’échanges sur les aspects juridiques de la propriété et de l’archivage des corpus

La participation de toutes les personnes intéressées par ces journées est vivement encouragée par le comité de pilotage, qu’elles soient ou non inscrites à un groupe de travail.

Si la participation à ces journées est libre, l’inscription est obligatoire. Vous trouverez le formulaire d’inscription à retourner au plus tard le 12 novembre 2012 au secrétariat de l’Institut de Linguistique Française, institution gestionnaire du Consortium, qui, le cas échéant, prendra contact avec vous pour organiser votre mission.

 

Projets 2013 pour le GT nouv-com (GP7)


En 2012, nous avons appris à nous connaître et à découvrir le travail de chacun, le tout à travers deux réunions des membres de notre groupe. Prenant exemple sur la façon dont d’autres consortium corpus travaillent, nous voudrions en 2013 avancer sur des projets concrets, projets que nous avions évoqués le 28 juin et qui étaient brossés dans cette page : Réunion du 28 juin

Lors de l’assemblée générale, le GT nouv-com va présenter ses projets de travail pour 2013. Nous allons demander à corpus-écrits un budget de fonctionnement relié à chaque groupe. Pour nous aider à préparer notre intervention du 23 novembre et même la réunion des animateurs de groupe de travail le 12 novembre, nous demandons à chaque membre du groupe nouv-com de participer à ces sondages Doodle pour indiquer leur intention de participation à tel ou tel projet.

    • Projet form : formation journée(s) sur processus d’annotation : à partir de corpus disponibles à l’avance et d’outils (logiciels libres d’annotation), mettre en oeuvre une chaîne de traitement, avec segmentation, annotation morpho-syntaxique, voire plus. Si vous êtes intéressé par une telle journée (éventuellement 2 jours), vous pouvez déclarer dans ce sondage votre intention d’aider à l’organiser (en coopération avec des membres d’autres groupes de travail du corpus-écrits spécialistes dans des domaines complémentaires ou simplement à y participer. Cette journée de formation sera limitée en nombre de participants afin de permettre de travailler concrètement sur des corpus et outils associés.

 

    • Projet corpus : rassemblement de corpus existants. Plusieurs membres / équipes de notre groupe de travail disposent déjà de corpus rassemblant des nouvelles formes de communication (SMS/textos, Blogues, clavardage, forums, twit, etc.). Il s’agit de sélectionner tout ou partie de ces corpus déjà organisés en XML et contenant des données langagières essentiellement en langue française, afin de les rassembler en une banque de corpus accessible à tous. Chaque corpus sera documenté suivant des standards (OLAC, CLARIN)et sera référencé à l’aide de permalien. La banque sera installé sur un serveur mis à disposition sur un serveur national (à prospecter : TGE-Adonis ?), faisant tourner un protocole OAI-PMH. Des membres de ce projet participeront aux réunions du Corpus de référence du français afin d’envisager d’adjoindre cette banque au corpus global. Les membres du projet étudieront la façon dont des analyses / annotations pourront compléter ce corpus (ces analyses et annotations pourront faire l’objet de projet de recherche financés par ailleurs – ANR, etc., la banque servant alors de point d’appui dans le montage de ces projets). Ils travailleront également en coopération avec le projet TEI-nouv-com afin de voir comment à l’horizon 2013-14, les corpus de la banque pourraient être avoir une version TEI. Vous pouvez participer à ce groupe, soit parce que vous êtes en mesure de mette à disposition du projet vos corpus ou, si vous n’en avez pas, désirez participer à l’avancement du projet.

 

  • Projet TEI-nouv-com : les participants à ce projet étudieront dans quelle mesure la TEI existante permet d’encoder toutes les informations relatives aux différents types de contenus provenant des nouvelles formes de communication (SMS/textos, Blogues, clavardage, forums, twit, etc.), par exemple pour un message de forum (son titre, liens avec le message précédent, date, corpus du message, auteur, etc.) ou si une extension est nécessaire pour ce faire. Une autre partie du travail se concentrera sur la partie métadonnées de la TEI (teiheader) afin d’y définir comment nos corpus pourrait être correctement renseignés afin de permettre par la suite des extractions pour générer des métadonnées au format CLARIN / OLAC. Les participants travailleront sur des extraits de corpus fournis par les membres du projet corpus et dans l’optique de permettre à terme (2014 ?) une exportation des corpus de ce projet dans ce format TEI-nouv-com. Enfin ils se tiendront informer des avancées du projet sur le Corpus de référence du français quant à la structuration de ce corpus et apporteront le cas échéant leurs avis.

Présentation du GT “Annotation de haut niveau” (GP8)


Présentation