Ce projet a pour objectif de centraliser les corpus de Français déjà existants et issus de divers projets, tous validés et normalisés par la communauté et de les mettre à disposition dans un espace commun avec un outillage approprié pour les utiliser. Ce projet comporte trois phases pouvant se dérouler en parallèle:
- identifier, rassembler les corpus existants ainsi que les méthodes, techniques et formats utilisés pour les constituer
- déterminer un noyau minimum de format, de qualité et de préparation des corpus devant être rendus disponible, présentation d’une chaîne de traitement permettant de normaliser de nouveaux corpus ou de mettre à niveau d’anciens corpus
- rendre disponible les corpus, en téléchargement, en recherche plein texte, en recherche outillée
Métadonnées
- Recensement des corpus existants éligibles à OFC, unification des métadonnées
- Création d ‘un corpus pilote et comparatif des métadonnées – en coopération avec le consortium ARIANE (CAHIER)
Trois axes de travail
- État de l’art et travail sur les corpus existants
- Évaluation d’Opentheso et travail sur les métadonnées
- Groupe de travail créé sur les paramètres de la situation d’énonciation