Disponible ici : https://corli.huma-num.fr/convinception/#/sax2
Cet utilitaire est un prototype qui doit permettre de préparer des documents XML pour être importés dans l’outil INCEpTION. Ceci implique de transformer vos données dans le format UIMA CAS XMI avec un seul document par fichier (split).
Marche à suivre
- Dans l’onglet « Conversion », chargez vos fichiers XML (TEI par exemple), puis identifiez :
- La balise qui permet de distinguer chaque document du corpus (l’application vous fera des suggestions, mais vous pouvez mettre ce que vous souhaitez)
- [optionnel] la balise qui représente la notion de phrase
- les annotations pré-éxistantes qui vous souhaitez retrouver dans INCEpTION (par défaut, toutes les balises qui ne font pas partie des autres catégories sont considérées comme des annotations)
- [optionnel] Sélectionnez un nom de projet.
- Cliquez sur GENERER et patientez jusqu’à ce que votre corpus converti soit téléchargé automatiquement sous la forme d’un fichier ZIP. Vous n’avez pas besoin de décompresser ce fichier, il pourra directement être chargé dans INCEpTION (si vous souhaitez incorporer les fichiers convertis vers un projet déjà existant dans INCEpTION, dézippez le ZIP, chargez le typesystem.xml dans Settings > Layers (cela sert à ajouter toutes les couches d’annotation), et chargez, en sélectionnant UIMA comme format d’import, tous les fichiers se trouvant dans le répertoire « source », vers le project INCEpTION déjà existant).
- Dans l’onglet « Projects » d’INCEpTION, cliquez sur « Import project » et sélectionnez le fichier ZIP. Pour que cela apparaisse à l’écran, il faut le ROLE_PROJECT_CREATOR disponible dans les paramètres d’utilisateurs (demandez à votre administrateur INCEpTION).
Veuillez noter que cet outil a été testé sur INCEpTION 23.8. Au besoin, veuillez contacter CORLI ou directement sur GitHub. Créé par Elie Naulleau, Louis Estève et CORLI. Ceci étant un prototype, nous sommes aussi ouverts aux retours.