Concordance

Méthode d’extraction textuelle basée sur la présentation d’extraits textuels contenant tous le même mot ou la même séquence, le même motif. Quelques outils : ConcQuest, Unitex, Frantext, Hyperbase, TXM

Consultation (droit de consultation, modalités de consultation)

Toute personne constituant un corpus doit en définir les modalités d’accès ou consultation. Les corpus peuvent être associés à différentes modalités de consultation, depuis l’usage restreint au(x) chercheur(s) et aux enquêtés impliqués dans la constitution du corpus, jusqu’à un accès libre à tout public, via internet notamment. L’importance d’une définition précise des modalités de consultations … Lire plus

Contexte, co-texte (context)

Le contexte joue un rôle primordial dans l’utilisation de la parole (en Langue des signes (sign language) et en langue des signes (sign language) et détermine certaines propriétés universelles du langage humain. Il fait intervenir des dimensions multiples. (1) Les aspects Co-verbal / non-verbal (co-verbal, non-verbal) de la situation immédiate, tels que les paramètres spatio-temporels … Lire plus

Controlled vocabulary

The set of values predefined by a standard (ex, TEI, OLAC, ISOcat), an annotation convention or by the annotator, most often entered in annotation software, which allows to code information unambiguously and remain consistent throughout the annotation process. The use of a controlled vocabulary makes it possible to make use of information annotated by software, … Lire plus

Convention d’annotation (convention on annotation)

Ensemble de règles de codification de l’information (linguistique, contextuelle, gestuelle…) convenues pour l’annotation d’une ressource, de telle sorte qu’un même événement sera représenté de manière constante et non ambigüe. Il permet de rendre interopérable des annotations réalisées par des opérateurs différents, à des moments différents. Il existe des conventions développées au sein de projets (ex. … Lire plus

Convention de transcription orthographique

Une convention de transcription orthographique spécifie l’encodage des différentes informations permettant de transcrire un énoncé audio de façon textuelle. En plus des tokens eux-mêmes, une transcription encode quelques informations de bas niveau comme les bruits, les amorces de mots ou les prononciations particulières. Ces informations ne correspondent généralement pas à des annotations, qui sont des … Lire plus

Cooccurrences

Méthode d’exploration consistant à repérer automatiquement les associations de mots apparaissant simultanément et de manière statistiquement significative dans le même contexte. Quelques outils : TXM

Corpus

Ensemble cohérent de données, sans nécessairement impliquer un « gros » volume. Un corpus doit comporter au minimum, outre les fichiers qui le composent, une fiche de métadonnées (ex. OLAC) pour être visible par les moteurs de recherche.