Le consortium « CORpus, Langues et Interactions » (CORLI) coordonné par l’Institut de Linguistique Française sous l’égide de la très grande infrastructure de recherche HUMA-NUM a vocation à fédérer les équipes, laboratoires, chercheurs et enseignants-chercheurs engagés dans la constitution et le traitement de corpus qu’ils soient écrits, oraux ou multimodaux, afin de faire converger les pratiques.
A cette fin, CORLI propose un certain nombre de formations dans différents domaines liés à l’utilisation de corpus en linguistique. L’un de ces domaines concerne la notation, l’annotation et l’analyse de corpus multimodaux, domaine dans lequel trois formations sont proposées cette année :
- Notation, annotation et analyse de corpus avec ELAN les lundi 21 et mardi 22 novembre 2016 au laboratoire ICAR à Lyon. S’inscrire à la formation ELAN
- Transcription et analyse de corpus multimodaux avec CLAN le mardi 22 novembre 2016 au laboratoire ICAR à Lyon. S’inscrire à la formation CLAN
- Annotation automatique et analyse de corpus avec SPPAS le mercredi 23 novembre 2016 au laboratoire ICAR à Lyon. S’inscrire à la formation à SPPAS
LES SUPPORTS DE COURS : ELAN
Tutoriels vidéos pour utiliser ELAN (par Christophe Parisse)
Niveau débutant
Jour 1 (21 novembre 2016) : Prise en main du logiciel ELAN
- Chargement du logiciel. Présentation des principales fonctionnalités d’ELAN (découverte du menu), chargement de données primaires multimodales (vidéo et audio), création de pistes (acteurs), segmentations (manuelle, à la volée), annotations. Synchronisation des données primaires (C. Parisse) – Support
- Sensibilisation aux formats et codecs (C. Parisse) – Support (plus d’informations sur les logiciels vidéo libres : récapitulatif issu de la formation IRCOM 2015 – C. Vincent et C. Savariaux)
- Comment importer une annotation effectuée sous excel, ou d’autres logiciels d’annotation (Praat, Transcriber, Toolbox, Clan) (C. Parisse) – Support
- Bâtir un template sous ELAN : stéréotypes et types associés aux pistes (acteurs) (C. Parisse)
Jour 2 (22 novembre 2016) : Template et Fonctions avancées
- Bâtir un template sous ELAN : vocabulaire contrôlé. Associations VC, types linguistiques et pistes d’annotation. Fonctions avancées d’ ELAN (merge et tokeniser). Répartir les annotations entre annotateurs et fusionner les transcriptions – Support de Dominique Boutet (2013)
- Corriger une annotation : Fonction rechercher/remplacer (fichier simple ou multiple). Faire des requêtes sous ELAN, sauvegarde des requêtes et des résultats. Exporter vers Excel (I. Rousset et C. Parisse) – Support
- Gestion des sous-titres (C. Vincent) – Support (plus d’informations sur les logiciels de sous-titrage et d’annotation libres : récapitulatif issu de la formation IRCOM 2015 – C. Vincent et C. Savariaux).
Niveau avancé
Jour 1 (21 novembre 2016) Prise en main du logiciel ELAN
- Questions présidant à l’établissement d’un schéma d’annotation, élaboration d’un template : structuration de l’annotation (type des pistes et des attributs). Constitution de vocabulaires contrôlés, insertion de différents médias, modalités de segmentation, annotations (I. Rousset) – Support (2013)
- Import d’annotations, Fonctions avancées (merge, filtres, copy, tokeniser), Modifications/ réutilisation d’un template. Sensibilisation à la constitution d’un manuel de codage (I. Rousset) – Support (2013)
Jour 2 (22 novembre 2016) Requêtes et analyse
- Requêtes, utilisation d’expressions régulières, enregistrement des requêtes, recherches sur plusieurs fichiers, exports des résultats. Utilisation d’Excel : import, export des données, utilisation des fonctions d’Excel pour modifier des données, pour générer des tiers ou des données à réimporter le cas échéant (C. Parisse) – Support
Les logiciels ELAN, Excel ou LibreOffice, Notepad++ ou JEdit (Mac) ont également été utilisés pendant la formation ELAN.
– Matin : Transcrire avec CLAN
- Installations – Support
- Présentation du contexte dans lequel le programme a été développé – Support
- Première étape de la transcription avec CLAN : insérer des balises temporelles associées au média (audio ou vidéo) à transcrire. Implications théoriques et mise en pratique
- Transcription des données. Implications théoriques et mise en pratiqueSupports : Lire une transcription téléchargée • Transcrire 1 : insérer les balises temporelles avant transcription • Transcrire 2 : insérer les balises temporelles après transcription • Quelques conventions CHAT
– Après-midi : Les commandes de CLAN
- Présentation des commandes les plus fréquemment utilisées pour l’analyse de données transcrites (FREQ, COMBO, MOR, MLU), export vers Excel, et mise en pratique – Support
- Export de données transcrites sous CLAN vers d’autres programmes (Excel, ELAN et PRAAT) pour approfondir les analyses – Support
Liste des logiciels utilisés et conseillés pendant la formation :
- le programme CLAN
- pour Windows (2000/XP/Vista/7) : cliquez sur « CLANWin »
- pour Mac (OS X 10.4 minimum) : cliquez sur « CLAN »
- d’autres types d’installation (anciennes versions pour PC, versions zippées pour Mac) sont disponibles sur cette page au cas où les installateurs usuels ne fonctionnent pas
- la grammaire de la langue étudiée
- le logiciel Quicktime.
LES SUPPORTS DE COURS : SPPAS
Formatrice : Brigitte Bigi (CR CNRS, Laboratoire Parole et Langage), auteure du logiciel SPPAS – the automatic annotation and analysis of speech.
Site officiel du logiciel SPPAS : http://www.sppas.org/ (incluant téléchargement et documentation).
– Matin : A propos de SPPAS
- Intégration de SPPAS dans une méthodologie de construction semi-automatique de corpus oraux et/ou multimodaux.
- SPPAS – Démonstration/Tutoriel (ensemble des fonctionnalités de SPPAS en ce qui concerne l’annotation automatique et l’analyse des annotations produites).
– Après-midi : Pratique de SPPAS
- A partir d’exemples fournis, les participants devront réaliser des annotations automatiques, effectuer des requêtes et produire un ensemble de statistiques descriptives du corpus.
Ces formations sont ouvertes aux producteurs et utilisateurs de corpus multimodaux (doctorants, post-doctorants, chercheurs, ingénieurs…).