Glossaire

A | B | C | D | E | G | I | L | M | N | O | P | R | S | T | U | V

Moyens techniques permettant d’enregistrer les valeurs de positions ou d'orientations d'éléments corporels pendant une activité. Elle est utilisée, entre autres, dans l'étude de la langue des signes, de la gestualité, et du mouvement des articulateurs visibles lèvres, menton. On peut distinguer trois principales techniques, (1) mécanique, faisant appel à des accéléromètres placés sur le corps ou un exosquelette/gant utilisant des fibres optiques ou des jauges de contraintes ; (2) optique ou visuelle, avec marqueurs passifs (réfléchissant) ou actifs (diodes), dont la position est enregistrée par des caméras et les coordonnées dans l'espace sont reconstituées après coup. La fréquence d'échantillonnage des systèmes récents atteint 500 Hz, pour une précision spatiale inférieure au millimètre ; (3) magnétique, où des bobines miniatures émettent un champs magnétique capté par un boitier de réception. Les systèmes récents peuvent atteindre une fréquence d'échantillonnage de 400 Hz. Cette technique permet d'enregistrer la position des articulateurs invisibles (langue, velum).

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Common Language Resources and Technology Infrastructure. Consortium européen au service de la linguistique et des sciences humaines et sociales visant à établir une infrastructure de recherche intégrée et interopérable en ressources et technologies linguistiques. C'est un acteur important dans le processus de normalisation des descripteurs. La France y a un statut d'observateur.

Component MetaData Infrastructure. Un format de métadonnées développé au sein de CLARIN, permettant, en outre, de documenter une structure de filiation (hiérarchique) entre fiches de métadonnées. La version actuelle de ce format est 1.2.

Méthode d’extraction textuelle basée sur la présentation d’extraits textuels contenant tous le même mot ou la même séquence, le même motif.

Quelques outils : ConcQuest, Unitex, Frantext, Hyperbase, TXM

Toute personne constituant un corpus doit en définir les modalités d’accès ou consultation.

Les corpus peuvent être associés à différentes modalités de consultation, depuis l’usage restreint au(x) chercheur(s) et aux enquêtés impliqués dans la constitution du corpus, jusqu’à un accès libre à tout public, via internet notamment. L’importance d’une définition précise des modalités de consultations des corpus, en lien avec la question des droits d’auteur, s’est accrue avec l’usage d’internet et les facilités de diffusion et de copie qu’il permet.

Les modalités de consultation des corpus doivent être définies d’après des critères éthiques d’abord (autorisation des personnes enregistrées, données sensibles), scientifiques et d’intérêt public. Elles peuvent être distinguées en quatre types principaux : accès non autorisé (restreint au(x) créateur(x) du corpus et au(x) enquêté(s))/ accès avec autorisation du responsable du corpus/ accès limité à une communauté scientifique/ accès libre à tout public. Les modalités de consultation peuvent évoluer au cours du temps.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Le contexte joue un rôle primordial dans l’utilisation de la parole (en Langue des signes (sign language) et en langue des signes (sign language) et détermine certaines propriétés universelles du langage humain. Il fait intervenir des dimensions multiples. (1) Les aspects Co-verbal / non-verbal (co-verbal, non-verbal) de la situation immédiate, tels que les paramètres spatio-temporels définissant la situation d’énonciation, et, pour les langue vocale (vocal/oral language), le regard et toutes les autres informations corporelles, faciales et gestuelles, accompagnant la parole. (2) Les dimensions de la communication qui sont plus particulièrement liées au contexte discursif ou co-texte, participant à la construction de l'univers de référence et de la structure informationnelle. (3) Il peut également inclure les connaissances plus générales du monde qui sont partagées entre les interlocuteurs d’un même groupe linguistique et/ou socio-culturel.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)

Ensemble de règles de codification de l'information (linguistique, contextuelle, gestuelle...) convenues pour l'annotation d'une ressource, de telle sorte qu'un même événement sera représenté de manière constante et non ambigüe. Il permet de rendre interopérable des annotations réalisées par des opérateurs différents, à des moments différents. Il existe des conventions développées au sein de projets (ex. PFC, Rhapsodie, LANGACROSS, CLAPI...), de laboratoires (ex. DELIC/GARS).

Une convention de transcription orthographique spécifie l'encodage des différentes informations permettant de transcrire un énoncé audio de façon textuelle. En plus des tokens eux-mêmes, une transcription encode quelques informations de bas niveau comme les bruits, les amorces de mots ou les prononciations particulières. Ces informations ne correspondent généralement pas à des annotations, qui sont des informations de plus haut niveau et dont nous recommandons l'encodage séparé (respectant le principe du stand-off annotation). Le groupe de travail 1 du consortium IRCOM est en cours d'élaborer une convention de transcription qui pourra servir de référence pour le français.

Méthode d’exploration consistant à repérer automatiquement les associations de mots apparaissant simultanément et de manière statistiquement significative dans le même contexte.

Quelques outils : TXM

Ensemble cohérent de données, sans nécessairement impliquer un "gros" volume. Un corpus doit comporter au minimum, outre les fichiers qui le composent, une fiche de métadonnées (ex. OLAC) pour être visible par les moteurs de recherche.

Dans la communication en Langue des signes (sign language), de nombreuses informations non verbales accompagnent l’utilisation du langage Oral vs. écrit. Constituant une partie indissociable de la communication, ces informations sont dites coverbales. Ainsi, la parole se situe dans un contexte comprenant des entités diverses qui définissent l’univers du discours dans la situation immédiate (interlocuteurs, autres entités, espace-temps...) et elle est accompagnée d’informations corporelles (attitude, positions et mouvements du corps...), faciales (expression d’émotions, regard...) et gestuelles (pointages, manipulation d’entités...) qui sont fondamentales pour l’interprétation des énoncés. Les recherches actuelles sur les gestes coverbaux montrent que leur utilisation serait partiellement liée aux propriétés spécifiques des langues.

Concernant les Langue des signes (sign language), dont les éléments verbaux relèvent de la modalité visuo-gestuelle et s’apparentent très souvent, en termes formels, aux éléments co-/non verbaux de la communication en langue vocale (direction du regard, mimiques faciales, postures corporelles, paramètres manuels), la question de la présence et de la nature du co-/non verbal reste entière.

Contenu validé par le Groupe de Travail 4 (multimodalité et modalité visuo-gestuelle)