Plateforme modulaire et open-source de textométrie : textométrie sur corpus tout venant ou structurés, annotés et alignés, préparation de corpus, mise en ligne de corpus.
FICHE DESCRIPTIVE DE L’OUTIL
Dernière version | TXM 0.8.0 (mai 2019) |
Responsable du projet | Serge Heiden |
Accessibilité | Téléchargement |
Site Web | http://textometrie.ens-lyon.fr/ |
Interface – Ergonomie | Interface conviviale : interface graphique utilisateur classique avec fenêtres multiples, widgets, barre d’outils et windows manager intégré (Eclipse RCP pour la version bureau ou GWT pour la partie client dans le navigateur web de la version portail) ; Ergonomie : assistants de construction de requêtes, de sous-corpus ou de partitions, interface traduite en français, anglais et russe ; Interface experte : version bureau pilotable également par scripts Groovy ou R, version portail interrogeable par API Restful (prototype). |
Systèmes | Windows ; Mac OS X ; Linux ; Version portail Web ; |
Licence | GPLv3 |
Format des corpus en entrée | Une quinzaine de formats d’import déjà définis + import personnalisé possible par script. Les formats déjà définis vont du texte brut (presse-papier, fichiers .txt) au texte structuré (XML dont une dizaine d’usages TEI différents), en passant par des formats de production de corpus (Factiva, Europresse), de transcription de l’oral (Transcriber), de corpus annoté (Cordial, Tiger Search), de corpus parallèle (TMX) ou d’analyse de corpus (Hyperbase, Alceste). Travaille en UTF-8 mais peut importer et exporter d’autres encodages. |
Format des corpus en sortie | Exports des tableaux par copier/coller ou au format tableur générique csv ; Export des graphiques en svg, pdf, bmp, jpeg, png, gif ; Production d’une version XML-TEI du corpus |
Fonctionnalités | Concordances ; Cooccurrences ; Lexique et Index ; Spécificités sur une partition Recherche de motifs…; voir plus de fonctionnalités |
Annotations gérées par l’outil | Toute annotation XML, lexicale (étiquettes) ou/et textuelle (structuration) ; annotation Cordial ; possibilité d’ajout d’un étiquetage TreeTagger à la volée. |
Documentation | Manuel d’utilisation |
Type d’outil | Analyse |
PRATIQUES ET USAGES DE TXM
- Fiches renseignées par :
Serge Heiden (IHRIM, ENS de Lyon) – Céline Poudat (BCL, Université de Nice Sophia Antipolis) – Béatrice Turpin(Université de Cergy Pontoise) – Denis Vigier (ICAR, Université Lumière Lyon II )
- Fiche 1 :
Objectifs de recherche | Conception (S.Heiden) / Etude du genre de l’article de recherche (C.Poudat) / Etude quantitative et qualitative de la combinatoire de mots lexicaux ou grammaticaux (D. Vigier) / Analyse de corpus journalistiques (B.Turpin) |
Pratiques | Concordance |
Scénarios | Concordance sur corpus annotés, gestion du multiniveau avec CQP, utilisation d’expressions régulières dans tous les éléments de la requête, nombreuses possibilités de tris, paramétrage du contexte, retour au texte, interconnexion des fonctionnalités (cooccurrences, ventilations, tables lexicales…) |
- Fiche 2 :
Objectifs de recherche | Identifier et caractériser des usages linguistiques propres à une typologie textuelle |
Pratiques | Mettre au jour les spécificités d’une partition |
Scénarios | Spécificités, loi hypergéométrique |