Les jeunes chercheurs en linguistique française disposent désormais d’outils leur permettant
  • de remplacer dans une large mesure (en particulier pour les états anciens de la langue française) ou
  • de compléter leur intuition linguistique
pour mesurer la représentativité (sinon à la limite l’existence)  d’expressions lexicales et grammaticales et d’évaluer cette représentativité à travers les genres textuels et les époques.
Les deux Cahiers du CRISCO 29 :
(2010 ) J. François, L’ATTESTATION DES COMBINAISONS LEXICALES A l’AIDE DE LA BASE DE DONNEES TEXTUELLES FRANTEXT
et 34 :
(2012) J. François &  Y. Gherissi, POUR UNE LINGUISTIQUE ORIENTEE OUTILS : la polysémie du verbe compter et les genres textuels
ont été conçus pour proposer des méthodes d’investigations basées sur l’analyse de divers types de corpus textuels.
Il en est de même du didacticiel de J. François disponible sur le site de la base FRANTEXT.
 

Sélection de Yacoub GHERISSI, Dominique LEGALLOIS et Jacques FRANCOIS

 

Quelques liens nouveaux, suivis de ceux mentionnés dans le Cahier 34 du CRISCO
 
NOUVEAUX LIENS VERS DES RESSOURCES TEXTUELLES EN LIGNE
Corpus français de l’Université de Leipzig : http://wortschatz.uni-leipzig.de/ws_fra/
  • Informations tirées de journaux francophones (plus de 19 millions de phrases)
  • Pages web (plus de 11 millions de phrases)
  • Wikipédia (près de 6 millions de phrases)
 
RAPPEL DES LIENS MENTIONNES DANS LE CAHIER DU CRISCO 34

 

Corpus littéraires
a) FRANTEXT : http://www.atilf.fr
b) Rabelais et son temps : http://134.59.31.3/rabelais.html
c) La Comédie humaine de Balzac : http://134.59.31.3/~brunet/BALZAC/BALZAC.htm
d) Correspondance de Flaubert : http://www.univ-rouen.fr/flaubert/
e) Jean de La Fontaine : http://www.lafontaine.net/
f) Guy de Maupassant : http://maupassant.free.fr

 

Corpus journalistiques
a) GlossaNet en ligne : http://glossa.ladl.jussieu.fr.
b) Le journal Le Monde :  http://www.bultreebank.org/french/login.html
c) Concordancier-corpus français : http://www.lextutor.ca/concordancers/concord_f.html

 

Corpus politiques : http://www.veronis.fr/outils

 

Sites de téléchargement de textes numérisés
CNRTL : Le Centre National de Ressources Textuelles et Lexicales permet l’accès à plusieurs corpus : http://www.cnrtl.fr/corpus/
  • Corpus journalistique de l’Est Républicain
  • Corpus Oraux en Français (TCOF)
  • Corpus d’articles de linguistiques issus de la revue « Sciences Humaines »
  • DEDE : un corpus annoté pour le traitement des DEscriptions DEfinies :
Ce corpus est composé d’une série d’articles du journal Le Monde datant de septembre 1987 et appartenant à toutes les rubriques.

 

Corpus oraux
a) CFPP2000, composé d’un ensemble d’interviews sur les quartiers de Paris et de la proche banlieue, accessibles sans restriction. : http://ed268.univ-paris3.fr/CFPP2000/
b) Corpus de français parlé Elicop (Etude LInguistique de la COmmunication Parlée) : http://bach.arts.kuleuven.be/elicop/

 

Bibliothèques virtuelles
a) Gallica
Les ressources de la Bibliothèque nationale de France (BnF) sont accessibles sur le serveur Gallica  : http://gallica.bnf.fr/
b) Le Net des Etudes françaises – La base propose des textes, entretiens, outils d’analyse, galerie,… et offre des liens notamment sur une base recensant le théâtre en ligne (1600-1800). : http://www.etudes-francaises.net/
c) ABU (Association des Bibliophiles universels) : http://abu.cnam.fr/
d) ATHENA : http://un2sg4.unige.ch/athena/html/swis_txt.html
e) Poésie française : http://poesie.webnet.fr/