CORLI (Corpus, Language, and Interactions) participe à CLARIN, un ERIC dont le but est de fournir des accès et des méthodes permettant de travailler sur des corpus de linguistique. CLARIN a une couverture européenne et même mondiale. |
La participation de CORLI consiste à mettre à disposition les connaissances et les outils présents à CORLI dans un centre K CLARIN nommé : CORLI French CLARIN Knowledge Centre for Linguistics of French Language and Beyond. En effet, le travail de CORLI est centré autour de l’amélioration des connaissances permettant de mieux travailler avec des corpus de linguistique. CORLI a été certifié Centre K par CLARIN (voir le cerficat de CLARIN).
CORLI maintient une FAQ (Foire Aux Questions) qui traite des principaux thèmes liés aux corpus.
Si la section FAQ ne répond pas à vos questions, vous pouvez les poser au comité de pilotage de CORLI:
Nous ferons de notre mieux pour vous répondre en deux jours ouvrables.
Les thèmes abordés par le Centre K sont:
- Données/corpus : partage de données et accès (entrepôts disponibles et base de données)
- Manuels : guides d’annotation et manuels pour l’analyse de corpus
- Outils/méthodes : méthodes et outils pour l’analyse de corpus
- Métadonnées : procédures de standardisation et recommandations
- Questions juridiques : questions légales pour la gestion et l’utilisation de corpus, propriété intellectuelle, formulaire de consentement
- Formats : conversion de format et logiciels disponibles pour le traitement des données
Qu’est-ce que CLARIN peut offrir aux linguistes ?
CLARIN dispose de nombreux centres K (voir liste complète).
La France dispose aussi de Centres C qui permettent d’accéder à de nombreuses données accessibles également par les outils de CLARIN :
- Ortolang : www.ortolang.fr
- Cocoon : cocoon.huma-num.fr
Enfin CLARIN dispose de nombreux outils (voir ici) et en particulier :
- le VLO, moteur de recherche des corpus existants (recherche sur les métadonnées)
- le « Content search », recherche plein texte dans les corpus de CLARIN
- le Switchboard, un outil de traitement des corpus de linguistique (tokenisation, lemmatisation, analyse)