Annotation des langues peu décrites

L’annotation des langues peu décrites comporte au minimum une glose morphosyntaxique et une traduction libre. Chaque morphème (lexical ou grammatical) est associé à une étiquette correspondant à une catégorie grammaticale (ex. futur, pluriel, antipassif, etc.) et/ou à une traduction (pour les lexèmes). Par exemple: “il a fini” :

il SBJ.3SG.M

a have.PRS.3SG

fini finish.PTCP.PST

Traduction libre : “he has finished”.

Les étiquettes sont abrégées selon des standards en cours d’élaboration. Par exemple ici: SBJ = sujet, SG = singulier, M = masculin, PRS= présent, PTCP = participe, PST = passé.

Une syntaxe de l’annotation morphosyntaxique est également nécessaire, et en cours de standardisation. Par exemple, le signe “=” est utilisé pour les frontières de clitiques, le signe “\” pour les alternances morphophonologiques (ablaut, mutation, alternance tonale etc.), le signe “.” sépare plusieurs étiquettes grammaticales lorsqu’elles correspondent à un seul morphème dans la langue analysée.

Des propositions ont été faites dans le cadre de divers projets, les plus abouties étant les Leipzig Glossing Rules (lien sur : http://www.eva.mpg.de/lingua/resources/glossing-rules.php) et les CorpAfroAs Glossing Rules (lien sur: http://corpafroas.tge-adonis.fr/glosses.html).