Formations CORLI – Analyse de données textuelles, Manipulation, extraction, exploration de corpus

Quand

16/05/2023 - 17/05/2023    
9h30 - 17h00

Université Paris Cité
10 rue Françoise Dolto ou au 9 esplanade Pierre Vidal-Naquet, Paris, 75013

Type d’évènement

 

Programme

📚 Mardi 16 mai 2023

  • 9h30 à 12h30

Intitulé: TXM débutant

Intervenant.e.s: Achille FALAISE, Loïc LIÉGEOIS

Où?: Salle 432C ou 436C, Halle aux Farines [TBA]

Contenu: TBA

  • 14h à 17h

Intitulé: TXM Avancé: potentiel de fonctionnalités non statistiques

Intervenant.e.s: Bénédicte PINCEMIN

Où?: Salle 436C, Halle aux Farines

Contenu: Nous proposons de centrer cette séance sur des fonctionnalités simples dans leur principe (ne reposant pas sur des connaissances mathématiques particulières : Concordance,  Index, Progression) et déjà utilisées par les participants dans leurs travaux, mais dont l’implémentation dans TXM permet certains modes avancés d’exploration de corpus pas toujours connus alors que souvent utiles en pratique.

Prérequis : la formation TXM avancé ne s’adresse qu’à des participants ayant déjà une pratique de TXM sur leurs corpus.

  • 14h à 17h

Intitulé: INCEpTION : plateforme collaborative pour l’annotation en linguistique

Intervenant.e.s: Lydia-May HO-DAC, Céline POUDAT

Où?: Salle 309, bât. Olympe de Gouges

Contenu: Annoter un corpus, c’est ajouter une ou plusieurs couches d’interprétation linguistique aux données brutes. Les annotations ajoutées peuvent être de natures très diverses : il peut s’agir de catégories morpho-syntaxiques, d’annotations sémantiques ou discursives, mais également, dans le cas de corpus oraux ou multi-modaux, d’informations sur la prosodie, les gestes, etc. 

Les annotations sont réalisées lors de campagnes d’annotation par des annotateurs humains, plus ou moins experts, qui s’appuient sur un guide d’annotation et utilisent un outil d’annotation.

Parmi ces outils, la plateforme INCEpTION a été investie par le consortium CORLI pour mettre à disposition de la communauté une plateforme documentée pour l’annotation collaborative.

La plateforme INCEpTION propose des fonctionnalités pour mener une annotation débarquée et embarquée multi-couche sous la forme de projets facilitant une annotation collaborative. L’annotation collaborative proposée comprend

  1. la gestion de cohortes d’annotateurs avec distribution des rôles,
  2. l’attribution des textes aux annotateurs,
  3. l’adjudication et la mesure de l’accord inter-annotateur.

Il n’y a pas de prérequis pour cet atelier. Les participants peuvent venir avec leur propre machine ou utiliser les machines qui seront à disposition dans la salle.

📚 Mercredi 17 mai 2023

  • 9h30 à 12h30

Intitulé: Extraire des données de son corpus – XSLT

Intervenant.e.s: Alexey LAVRENTEV

Où? Salle 309, bât. Olympe de Gouges

Contenu: Cet atelier sera consacré aux langages XPath et XSLT destinés au traitement de données XML. Un corpus de travail encodé en TEI sera utilisé pour expérimenter les opérations suivantes : tokénisation, création d’un index de noms propres, export des annotations au format tabulaire (CONLL).

Les logiciels Oxygen XML Editor (alternativement le site XSL Transform) et TXM seront nécessaires pour les travaux pratiques.

  • 9h30 à 12h30

Intitulé: Présentation du logiciel IRaMuTeQ

Intervenant.e.s: Lucie LOUBERE

Où? Salle 432C ou 436C, Halle aux Farines

Contenu: La formation comprendra une présentation des types de corpus analysables dans Iramuteq et des analyses textuelles proposées par ce logiciel. Nous n’entrerons pas dans les détails de ces dernières, l’objectif étant de présenter les diverses possibilités utiles pour les recherches sur des données textuelles.

Il n’y a pas de prérequis exigé et bien que l’installation ne soit pas indispensable pour cette formation, un tutoriel et un corpus de test seront fournis pour ceux ou celles qui voudront installer IRaMuTeQ sur leur machine.

  • 14h à 17h

Intitulé: Initiation aux statistiques avec R 

Intervenant.e.s: Olivier CROUZET

Où? Salle 309, bât. Olympe de Gouges

Contenu: La formation consistera en une introduction pratique aux outils de base de l’analyse des données avec le langage d’analyse statistique R. Nous irons du chargement des données à la mise en œuvre de statistiques descriptives basiques, en passant par quelques techniques de vérification et de manipulation des données.

Les participants devront pouvoir mettre en pratique en direct les méthodes présentées, il est donc essentiel d’installer le logiciel R ainsi que l’interface RStudio. N’importe quelle version de ces deux outils (installée depuis moins de 5/6 ans) sera suffisante pour la formation. Il n’est pas utile d’installer une version plus récente si vous en avez déjà une sur votre ordinateur.

Pour l’installation, les liens sont les suivants :

Pré-requis : il est utile d’avoir quelques notions de statistiques descriptives mais la formation peut être profitable même si vos connaissances sont lointaines ou partielles.


Informations pratiques

Chargeur En cours de chargement…
Logo EAD Cela prend trop de temps ?

Recharger Recharger le document
| Ouvert Ouvrir dans un nouvel onglet

Adresse:

Université Paris Cité – Campus Grands Moulins
8 Place Paul Ricoeur, 75013 Paris
Bâtiment Halle aux farines / bâtiment Olympe de Gouges

 

Lien Google Maps

Inscriptions:

…communes avec l’événement organisé par CORLI, LIFT, TAL des 15 & 16 mai 2023 ; ne remplissez que les événements auxquels vous souhaitez assister!

Lien

Installation des logiciels:

La plupart des logiciels sont gratuits et peuvent être installés via les liens ci-dessous 

Le logiciel Oxygen XML est payant, alternatives:

  • une version d’essai de 30 jours est disponible sur le site, sur inscription (info demandée: adresse mail)
  • Pour celles et ceux qui préfèreraient ne pas avoir recours à la version d’essai, le site http://xsltransform.net/ peut être utilisé