Glossaire

A | B | C | D | E | G | I | L | M | N | O | P | R | S | T | U | V

Il s'agit d'un équivalent, pour les documents numériques, de ce qu'est le numéro ISBN pour les publications imprimées. L'OAI préconise une certaine syntaxe. L'emplacement (URL) d'un document numérique doit pouvoir être résolu par le biais de fournisseurs de services (ex. portails d'archivage...). Le consortium CLARIN préconise l'utilation de //Persistent Identifiers// (PID) gérés par l'European Persistent Identifier Consortium.

ISLE (International Standards for Language Engineering) Meta Data Initiative. Ensemble de descripteurs qui vise à décrire les ressources linguistiques multimédia et multimodales. Utilisées surtout au MPI (Max Planc Institute for Psycholinguistics : ex. DoBeS), les métadonnées IMDI ne sont pas moissonnées par les moteurs relevant du protocole OAI-PMH. L'utilisation de moteurs spécifiques (ex. IMDI Browser) permet d'effectuer des recherches sur ces métadonnées.

Ce format est actuellement considéré comme obsolète, en voie de remplacement par le CMDI de CLARIN, qui préconise ARBIL. Toutefois, un service de dépôt en ligne au format CMDI n'a pas encore été créé ; il est prévu dans le cadre du projet européen INNER SPARK.

L’interopérabilité fait référence à la possibilité pour des données d’être réutilisées, modifiées, transformées dans un cadre différent de celui de leur création originale. Idéalement, cette réutilisation doit pouvoir se propager à de nouvelles situations à l’infini et, dans certains cas, mener à la réutilisation (un fois les données modifiées et enrichies) par les mêmes outils et procédures qui avaient servi à créer les données au départ.

Cette interopérabilité repose le plus souvent sur l’usage de formats communs et partagés (par exemple format Word et OpenDocument pour le traitement de texte). Elle peut être mise en difficulté par l’évolution des outils. Elle dépend aussi largement de la qualité de partage des concepts manipulés : les concepts les plus connus et les mieux décrits sont les plus partageables.

Aujourd’hui, l’interopérabilité des données de corpus de langage (en particulier oral et multimodal) est encore balbutiante et nécessite un important investissement de la part des utilisateurs. C’est particulièrement le cas dans un domaine complexe et novateur comme celui de la multimodalité.

Pour ce qui concerne les annotations, l'interopérabilité vise à permettre l'édition et la manipulation (notamment la correction) de données à l'aide d'outils ou d'éditeurs différents. Cela signifie la capacité pour un même ensemble de données d'être manipulées indifféremment par des outils comme Anvil, Praat pour Elan, important et exportant des formats compréhensibles par les autres outils.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Voir également la page interoperabilité.

Les catégories ISO sont des descripteurs standards (cf. Vocabulaire contrôlé (controlled vocabulary)) permettant de définir des concepts linguistiques largement acceptés. Ces descripteurs couvrent les différentes thématiques linguistiques (syntaxe, sémantique, lexique, traduction, etc.). Il existe un groupe au sein du consortium CLARIN travaillant sur le développement des descripteurs ISOcat. Des formations sont proposées en France.