Une convention de transcription orthographique spécifie l’encodage des différentes informations permettant de transcrire un énoncé audio de façon textuelle. En plus des tokens eux-mêmes, une transcription encode quelques informations de bas niveau comme les bruits, les amorces de mots ou les prononciations particulières. Ces informations ne correspondent généralement pas à des annotations, qui sont des informations de plus haut niveau et dont nous recommandons l’encodage séparé (respectant le principe du stand-off annotation). Le groupe de travail 1 du consortium IRCOM est en cours d’élaborer une convention de transcription qui pourra servir de référence pour le français.