Inventaire des corpus écrits

NomFicheLangueCorpusSiteFormatsAccèsMots clefs
4-CouvFIcheFrançaisCorpusSiteLibrecorpus arboré, treebank, analyse en constituants, quatrième de couverture
ALLyFIcheFrançais, Occitan, Franco-ProvençalCorpusSitepdfRéservé à certains membresAtlas
AMPLORFIcheMoyen françaisCorpusSiteTEIlicence Creative Commons Attribution - Pas d'Utilisation Commerciale - Pas de Modification 3.0 non transposé
ANNODISFIcheFrançaisCorpusSiteTEIBy -NC-SA 3.0
Archive Numérique Desanti (IHRIM UMR5317)FIcheFrançaisCorpusSiteTous droits réservés
Base de Français Médiéval (BFM)FIcheFrançais, Dialectes françaisCorpusSiteTEIDomaine public, licence Etalab Le fichier XML-TEI préparé par l'équipe de la BFM est mis à disposition sous licence Etalab sur demande par mail auprès de l'administrateur de la BFM.
Bibliothèques virtuelles humanistes – Corpus EpistemonFIcheLangue Français, Latin, Grec, Italien, Espagnol, Allemand, Gascon, Hébreu, Langue artificielle, Arabe, Basque, Araméen, Limousin, Néerlandais, Ancien araméen, Breton, Béarnais, Danois, Ecossais, Latin macaronique, Lorrain, Picard, Poitevin, Portugais, TupiCorpusSiteTEICreative Commons Attribution – Non Commercial – ShareAlike 4.0 International Licence.Littérature, histoire, correspondance, économie
Chambers-RostandFIcheFrançaisCorpusSiteTEICC-by-NC
CHISPA Edition numériques des archives de José Mora GuarnidoFIcheEspagnolCorpusSiteCC BY-NC-SA 3.0
CoMeReFIcheFrançaisCorpusSiteTEICC-by-NC
Corpus 14FIcheFrançaisCorpusSiteTEILicence Creative Commons Attribution – Pas d'Utilisation Commerciale - Partage à l'Identique 3.0 France
Corpus d'articles de linguistiques issus de la revue "Sciences Humaines"FIcheFrançaisCorpusSiteTEICC BY-NC-SA 2.0
Corpus ÉMA, écrits scolairesFIcheFrançaisCorpusSitepdfÉcriture scolaire, Texte argumentatif, Texte narratif
Corpus journalistique issu de l'Est RépublicainFIcheFrançaisCorpusSiteTEILibre dans un cadre de recherche ou d'enseignement à l'exclusion de toute utilisiation commerciale et sous réserve de citation de la source : Est Républicain
Correspondance de Pierre BayleFIcheFrançaisCorpusSiteCC BY-NC-SA 3.0 FRcorrespondance, Pierre Bayle, République des Lettres
Cuentos de Horacio QuirogaFIcheEspagnolCorpusSiteTEICC-BY-NC-NDCuento, Realismo mágico, Fantástico, Naturalismo, Uruguay, Quiroga Nouvelle, Réalisme magique, Fantastique, Naturalisme, Uruguay, Quiroga
Débats parlementaires sur l'Europe à l'Assemblée nationale (2002-2012)FIcheFrançaisCorpusSiteTEICC BY 4.0discours politique, débats parlementaires, Europe
Débats parlementaires sur l'Europe à la House of Commons (1998-2015)FIcheAnglaisCorpusSiteTEICC BY 4.0discours politique, débats parlementaires, Europe
Débats parlementaires sur l'Europe au Bundestag (1998-2015)FIcheAllemandCorpusSiteTEICC BY 4.0discours politique, débats parlementaires
DEDE : un corpus annoté pour le traitement des DEscriptions DEfiniesFIcheFrançaisCorpusSiteLe corpus annoté est librement téléchargeable.
DemocratFIcheAncien français, Moyen français, FrançaisCorpusSiteTEICreative Commons Attribution-ShareAlike 3.0référence, coréférence, expression référentielle
Edition de la correspondance et des archives de Marc Michel ReyFIcheFrançaisCorpusSiteTEICC BY-NC-ND 3.0 FR
Dictionnaire électronique de TroyesFIcheAncien françaisCorpusSiteTEILes fichiers TEI ne sont disponibles que pour les membres de l'espace de travail Licence Creative Commons Attribution - Pas d'utilisation commerciale - Partage dans les Mêmes Conditions 2.0 GénériqueChrétien de Troyes
FRANTEXTFIcheFrançaisCorpusSiteTEILibre dans un cadre de recherche ou d'enseignement
Interviews d'Alphonse Daudet dans la presse parisienne (1883-1897)FIcheFrançaisCorpusSiteTEILibre sans utilisation commercialeInterviews, Presse, XIXe siècle, Conversation, Alphonse Daudet
Journal intime de Leonore AltFIcheAllemandCorpusSiteLicence Creative Commons - Attribution 4.0 International
Le Pelerinage de Vie humaine de Guillaume de DigullevilleFIcheMoyen françaisCorpusSiteTEICe texte est librement utilisable et rediffusable sous la condition de citer l'auteur (Guillaume de Digulleville) et la transcriptrice (Béatrice Stumpf)
Les dossiers de Bouvard et PécuchetFIcheFrançais, Latin, ArabeCorpusSiteTEICC BY-NC-SA 3.0Agriculture, Médecine, Littérature, Philosophie, Religion, Amour, Politique, Histoire
Les interrogatives directes tirées de dix romans policierFIcheFrançaisCorpusSiteTexteLibre sans utilisation commerciale
Littéracie AvancéeFIcheFrançaisCorpusSiteTEIBy-NC-SA 3.0
Modélisation Contrastive et Computationnelle des Chaînes de CoréférenceFIcheAncien français, Moyen français, FrançaisCorpusSiteTEILibre sans utilisation commerciale
Montesquieu Bibliothèque et éditionsFIcheFrançaisCorpusSiteTEICC BY-NC-SA 3.0
Mooc Ville durable être acteur du changementFIcheFrançaisCorpusSiteTEIBy-NC-SA 3.0
OrthocorpusFIcheFrançais,CorpusSiteRéservé aux personnes Membres de l'ESR Libre sans utilisation commercialeOrthophonie, Article scientifique
ParCoGLiJeFIcheFrançais et AnglaisCorpusSiteTEILibrecorpus parallèle, littérature de jeunesse, français-anglais
PARSEME-FRFIcheFrançaisCorpusSitecoNLL-uexpressions polylexicales, verbales, annotation corpus
PayeTonCorpusFIcheFrançaisCorpusSiteTEICC BY-NC-SA 4.0
Présidentielle2017: corpus des tweets de la #présidentielle2017FIcheFrançaisCorpusSiteTEILibre Contraintes pour réutiliser tweets : Reprenez le texte complet du Tweet Vous ne devez pas supprimer, masquer ni modifier l’identification de l’utilisateur.
Rapports allemands sur l'intégration (1991-2014)FIcheAllemandCorpusSitepdfLibrerapports administratifs, intégration, immigration
Rapports français sur l'intégration (1991-2012)FIcheFrançaisCorpusSitepdfLibrerapports administratifs, intégration, immigration, Haut Conseil à l'Intégration (HCI)
Recherches sur le français parléFIcheFrançaisCorpusSiteTEILicence Creative Commons Attribution - Pas d'utilisation commerciale - Partage dans les Mêmes Conditions 4.0 Internationalfrançais parlé, linguistique, syntaxe
Résolutions du Conseil de sécurité de l'ONU 1946-2015FIcheFrançais et AnglaisCorpusSiteLibre sans utilisation commerciale
ScientextFIcheFrançaisCorpusSiteTEICC-by-NC
TermITH (Terminologie et Indexation de Textes intégraux en sciences Humaines et sociales)FIcheFrançaisCorpusSiteTEIDans chaque catégories, les corpus disciplinaires ne sont disponibles que pour les membres de l'ESR. The Creative Commons Attribution 4.0 International License applies to this document. Selon la convention signée avec l'éditeur, le présent document n'est utilisable que par les partenaires du projet TermITH dans le cadre des traitements développés pour TermITH.
Théâtre de Louis de BoissyFIcheFrançaisCorpusSiteTEICC BY-NC-SA 4.0Théâtre, Comédie
WikiDiscFIcheFrançaisCorpusSiteTEI-P5Following Wikipedia.fr recommendation this corpus (and all its related contents) can be freely distributed and shared subject only to attribution, and share alike.
MPF (Multicultural Paris French)françaisCorpusSite.txtLicence Creative Commonsbanlieue ; contacts de langues ; français multiculturel oral ; non standard ; vernaculaire urbain contemporain ; proximité comm