Programme
Mardi 16 mai 2023
- 9h30 à 12h30
Intitulé: TXM débutant
Intervenant.e.s: Achille FALAISE, Loïc LIÉGEOIS
Où?: Salle 432C ou 436C, Halle aux Farines [TBA]
Contenu: TBA
- 14h à 17h
Intitulé: TXM Avancé: potentiel de fonctionnalités non statistiques
Intervenant.e.s: Bénédicte PINCEMIN
Où?: Salle 436C, Halle aux Farines
Contenu: Nous proposons de centrer cette séance sur des fonctionnalités simples dans leur principe (ne reposant pas sur des connaissances mathématiques particulières : Concordance, Index, Progression) et déjà utilisées par les participants dans leurs travaux, mais dont l’implémentation dans TXM permet certains modes avancés d’exploration de corpus pas toujours connus alors que souvent utiles en pratique.
Prérequis : la formation TXM avancé ne s’adresse qu’à des participants ayant déjà une pratique de TXM sur leurs corpus.
- 14h à 17h
Intitulé: INCEpTION : plateforme collaborative pour l’annotation en linguistique
Intervenant.e.s: Lydia-May HO-DAC, Céline POUDAT
Où?: Salle 309, bât. Olympe de Gouges
Contenu: Annoter un corpus, c’est ajouter une ou plusieurs couches d’interprétation linguistique aux données brutes. Les annotations ajoutées peuvent être de natures très diverses : il peut s’agir de catégories morpho-syntaxiques, d’annotations sémantiques ou discursives, mais également, dans le cas de corpus oraux ou multi-modaux, d’informations sur la prosodie, les gestes, etc.
Les annotations sont réalisées lors de campagnes d’annotation par des annotateurs humains, plus ou moins experts, qui s’appuient sur un guide d’annotation et utilisent un outil d’annotation.
Parmi ces outils, la plateforme INCEpTION a été investie par le consortium CORLI pour mettre à disposition de la communauté une plateforme documentée pour l’annotation collaborative.
La plateforme INCEpTION propose des fonctionnalités pour mener une annotation débarquée et embarquée multi-couche sous la forme de projets facilitant une annotation collaborative. L’annotation collaborative proposée comprend
- la gestion de cohortes d’annotateurs avec distribution des rôles,
- l’attribution des textes aux annotateurs,
- l’adjudication et la mesure de l’accord inter-annotateur.
Il n’y a pas de prérequis pour cet atelier. Les participants peuvent venir avec leur propre machine ou utiliser les machines qui seront à disposition dans la salle.
Mercredi 17 mai 2023
- 9h30 à 12h30
Intitulé: Extraire des données de son corpus – XSLT
Intervenant.e.s: Alexey LAVRENTEV
Où? Salle 309, bât. Olympe de Gouges
Contenu: Cet atelier sera consacré aux langages XPath et XSLT destinés au traitement de données XML. Un corpus de travail encodé en TEI sera utilisé pour expérimenter les opérations suivantes : tokénisation, création d’un index de noms propres, export des annotations au format tabulaire (CONLL).
Les logiciels Oxygen XML Editor (alternativement le site XSL Transform) et TXM seront nécessaires pour les travaux pratiques.
- 9h30 à 12h30
Intitulé: Présentation du logiciel IRaMuTeQ
Intervenant.e.s: Lucie LOUBERE
Où? Salle 432C ou 436C, Halle aux Farines
Contenu: La formation comprendra une présentation des types de corpus analysables dans Iramuteq et des analyses textuelles proposées par ce logiciel. Nous n’entrerons pas dans les détails de ces dernières, l’objectif étant de présenter les diverses possibilités utiles pour les recherches sur des données textuelles.
Il n’y a pas de prérequis exigé et bien que l’installation ne soit pas indispensable pour cette formation, un tutoriel et un corpus de test seront fournis pour ceux ou celles qui voudront installer IRaMuTeQ sur leur machine.
- 14h à 17h
Intitulé: Initiation aux statistiques avec R
Intervenant.e.s: Olivier CROUZET
Où? Salle 309, bât. Olympe de Gouges
Contenu: La formation consistera en une introduction pratique aux outils de base de l’analyse des données avec le langage d’analyse statistique R. Nous irons du chargement des données à la mise en œuvre de statistiques descriptives basiques, en passant par quelques techniques de vérification et de manipulation des données.
Les participants devront pouvoir mettre en pratique en direct les méthodes présentées, il est donc essentiel d’installer le logiciel R ainsi que l’interface RStudio. N’importe quelle version de ces deux outils (installée depuis moins de 5/6 ans) sera suffisante pour la formation. Il n’est pas utile d’installer une version plus récente si vous en avez déjà une sur votre ordinateur.
Pour l’installation, les liens sont les suivants :
- Interface RStudio (cette page fournit aussi un lien pour l’installation du logiciel / langage R)
- Logiciel / Langage R
Pré-requis : il est utile d’avoir quelques notions de statistiques descriptives mais la formation peut être profitable même si vos connaissances sont lointaines ou partielles.
Informations pratiques
Adresse:
Université Paris Cité – Campus Grands Moulins
8 Place Paul Ricoeur, 75013 Paris
Bâtiment Halle aux farines / bâtiment Olympe de Gouges
Inscriptions:
…communes avec l’événement organisé par CORLI, LIFT, TAL des 15 & 16 mai 2023 ; ne remplissez que les événements auxquels vous souhaitez assister!
Installation des logiciels:
La plupart des logiciels sont gratuits et peuvent être installés via les liens ci-dessous
Le logiciel Oxygen XML est payant, alternatives:
- une version d’essai de 30 jours est disponible sur le site, sur inscription (info demandée: adresse mail)
- Pour celles et ceux qui préfèreraient ne pas avoir recours à la version d’essai, le site http://xsltransform.net/ peut être utilisé