INCEpTION

Environnement d’annotation avec possibilité d’appliquer des méthodes d’Active Learning

FICHE DESCRIPTIVE DE L’OUTIL

Responsable du projetTU Darmstadt
Dernière versionINCEpTION 26.0
AccessibilitéTéléchargement en ligne : https://inception-project.github.io/downloads
Démo en ligne : https://morbo.ukp.informatik.tu-darmstadt.de/demo
Version test proposée par CORLI (identifiants à demander au consortium CORLI) : https://inception.atilf.fr/login.html
Site webhttps://inception-project.github.io/
SystèmesOS X, Linux et Windows
Format des corpus en entréeCoNLL(2000-2012), CoreNLP CoNLL-like format, CoNLL-U, IMS CWB (aka VRT), (TEI-P5) XML, LAPPS or NLP Interchange Format, (presegmented) plain text, WebLicht TCF, UIMA Binary CAS, UIMA CAS XMI, WebAnno TSV (1-3)
Format des corpus en sortieTEI, CONLL(U), UIMA CAS XMI, JSON, plain txt, …
FonctionnalitésLa plateforme Inception s’adosse au logiciel d’annotation WebAnno et propose des fonctionnalités pour mener une annotation débarquée et embarquée multi-couche sous la forme de projets facilitant une annotation collaborative. L’annotation collaborative proposée comprend (1) la gestion de cohortes d’annotateurs avec distribution des rôles, (2) l’attribution des textes aux annotateurs, (3) l’adjudication et la mesure de l’accord inter-annotateur. Elle permet également d’appliquer des méthodes d’Active Learning qui consistent à « apprendre automatiquement » un modèle sur la base de quelques annotations manuelles pour prédire des annotations sur des données non annotées. Ces nouvelles annotations pourront être (in)validées pour augmenter le jeu de données d’apprentissage. Selon le type d’objet annoté, ces méthodes peuvent réduire considérablement le temps d’annotation.
Possibilité d’installer sur serveur pour permettre une annotation collaborative en ligne (voir le projet CORLI 2022-2025)
DocumentationDocumentation en anglais sur le site : https://inception-project.github.io/documentation/
Documentation en française proposée par CORLI : https://corli.huma-num.fr/faq/comment-utiliser-la-plateforme-inception/
Type d’outilAnnotation et Active Learning

PRATIQUES ET USAGES D’INCEPTION

  • Fiche renseignée par : Lydia-Mai Ho-Dac
Objectifs de rechercheConstitution d’une ressource collaborative d’annotations multi-niveaux en cours de Master de linguistique sur le modèle de la ressource GUM (https://corpling.uis.georgetown.edu/gum/), développée par l’université de Georgetown, USA.
ViséeAnnotation manuelle multi-niveaux (segmentation, étiquetage morpho-syntaxique, entités nommées, coréférence) et annotation d’un objet spécifique : les attaques verbales.
PratiquesLes annotations ont été annotées en doubles et ont donné lieu à une version de référence (un « gold ») qui pourra être ensuite utilisée pour évaluer l’efficacité des outils TAL sur les données représentées dans le corpus.
ScénariosCréation de modèles d’annotation, test de formats d’entrée et de sortie, double annotation, prise en compte des différents annotateurs et calcul de scores inter-annotateurs
Fonctionnalités supplémentairesDes scripts Python ont été produits par CORLI pour faciliter l’interopérabilité entre INCEpTION et des outils
– de traitements automatique (Stanza),
– d’annotation (GLOZZ)
– d’exploration de corpus (TXM).
Page dédiée : https://gitlab.huma-num.fr/corli/corli-gum_v1
Voir également les formations ANNOTATION