- Préparer son corpus pour l’importer dans un outil de traitement de corpus / Expressions régulières (Achille Falaise et Loïc Liégeois) : Cette formation a pour objectif de présenter aux participants des techniques visant à préparer son corpus à l’importation dans des outils d’analyse de corpus (par exemple TXM, Lexico, CLAN, Hyperbase, Iramuteq…). Nous verrons que, dans la majorité des cas, un série d’expressions régulières peut suffire à supprimer ou ajouter des informations dans le texte ou la transcription. Pour les exercices, nous nous appuierons sur les données fournies par les participants afin que chacun puisse repartir de la formation avec son corpus d’analyse prêt à être importé dans l’outil de son choix. Aucun pré-requis n’est exigé.
- Étiqueteurs en parties du discours / tagging et parsing (Antonio Balvet) : Quel est le meilleur étiqueteur pour mon corpus? A partir de cette question légitime, à l’heure où plusieurs types d’étiqueteurs en parties du discours sont désormais disponibles pour de nombreuses langues, nous nous pencherons sur différents étiqueteurs pour le français (ou d’autres langues en fonction des besoins). Nous tenterons d’évaluer la qualité linguistique du service rendu, au-delà des métriques quantitatives. Nous verrons concrètement comment utiliser ces étiqueteurs dans le cadre de la constitution d’un corpus annoté. Le lien avec l’analyse syntaxique (parsing) sera également abordé.Pré-requis: connaissances de base en grammaire/syntaxe, autonomie face à l’outil informatique (système de fichiers, ligne de commandes).