Balisage

Le balisage de la transcription consiste à ajouter des balises de segmentation ou de parenthèsage du texte. Il peut par exemple s’agir de balises xml définissant une structure de constituants comme dans certains treebanks syntaxiques. Cela s’oppose à une annotation séparée Annotation déportée (stand-off annotation) où les annotations sont dans des fichiers séparés et alignés … Lire plus

Capture de mouvement

Moyens techniques permettant d’enregistrer les valeurs de positions ou d’orientations d’éléments corporels pendant une activité. Elle est utilisée, entre autres, dans l’étude de la langue des signes, de la gestualité, et du mouvement des articulateurs visibles lèvres, menton. On peut distinguer trois principales techniques, (1) mécanique, faisant appel à des accéléromètres placés sur le corps … Lire plus

CLARIN

Common Language Resources and Technology Infrastructure. Consortium européen au service de la linguistique et des sciences humaines et sociales visant à établir une infrastructure de recherche intégrée et interopérable en ressources et technologies linguistiques. C’est un acteur important dans le processus de normalisation des descripteurs. La France y a un statut d’observateur.

CMDI

Component MetaData Infrastructure. Un format de métadonnées développé au sein de CLARIN, permettant, en outre, de documenter une structure de filiation (hiérarchique) entre fiches de métadonnées. La version actuelle de ce format est 1.2.

Concordance

Méthode d’extraction textuelle basée sur la présentation d’extraits textuels contenant tous le même mot ou la même séquence, le même motif. Quelques outils : ConcQuest, Unitex, Frantext, Hyperbase, TXM

Consultation (droit de consultation, modalités de consultation)

Toute personne constituant un corpus doit en définir les modalités d’accès ou consultation. Les corpus peuvent être associés à différentes modalités de consultation, depuis l’usage restreint au(x) chercheur(s) et aux enquêtés impliqués dans la constitution du corpus, jusqu’à un accès libre à tout public, via internet notamment. L’importance d’une définition précise des modalités de consultations … Lire plus

Contexte, co-texte (context)

Le contexte joue un rôle primordial dans l’utilisation de la parole (en Langue des signes (sign language) et en langue des signes (sign language) et détermine certaines propriétés universelles du langage humain. Il fait intervenir des dimensions multiples. (1) Les aspects Co-verbal / non-verbal (co-verbal, non-verbal) de la situation immédiate, tels que les paramètres spatio-temporels … Lire plus

Controlled vocabulary

The set of values predefined by a standard (ex, TEI, OLAC, ISOcat), an annotation convention or by the annotator, most often entered in annotation software, which allows to code information unambiguously and remain consistent throughout the annotation process. The use of a controlled vocabulary makes it possible to make use of information annotated by software, … Lire plus

Convention d’annotation (convention on annotation)

Ensemble de règles de codification de l’information (linguistique, contextuelle, gestuelle…) convenues pour l’annotation d’une ressource, de telle sorte qu’un même événement sera représenté de manière constante et non ambigüe. Il permet de rendre interopérable des annotations réalisées par des opérateurs différents, à des moments différents. Il existe des conventions développées au sein de projets (ex. … Lire plus

Convention de transcription orthographique

Une convention de transcription orthographique spécifie l’encodage des différentes informations permettant de transcrire un énoncé audio de façon textuelle. En plus des tokens eux-mêmes, une transcription encode quelques informations de bas niveau comme les bruits, les amorces de mots ou les prononciations particulières. Ces informations ne correspondent généralement pas à des annotations, qui sont des … Lire plus