Le projet de Modélisation Graphique de la Polysémie Evolutive

LE PROJET DE MODÉLISATION GRAPHIQUE DE LA POLYSÉMIE ÉVOLUTIVE

sur la base des notices historico-étymologiques du Trésor de la Langue Française informatisé [TLFi]

 

Dans les années 1990, les entrées « lexicographiques » du TLFi ont été « rétroconverties » (c’est-à-dire transposées dans le langage informatique SGML avec des annotations visant à classer tous les types d’information qu’elles contiennent, p. ex. la transcription phonétique, les définitions, les exemples forgés, les citations, l’auteur de chaque citation, sa référence – ouvrage et date – ses synonymes, des remarques grammaticales, etc.), si bien qu’il est possible depuis un quart de siècle de faire des recherches très précisément ciblées sur les mots français (par exemple, « combien de fois Victor Hugo a-t-il employé le substantif JUSTICE dans ses romans et quels autres mots accompagnaient ce substantif dans les deux contextes gauche et droit ? »).

Chacune de ces entrées lexicographiques – à de rares exceptions près en raison du renvoi à une autre entrée – est suivie d’une notice historico-étymologique. Ces notices tirent profit d’un corpus de textes et de références dans les principaux dictionnaires étymologiques contemporains et les dictionnaires de  la langue français depuis leur apparition au début du 17e siècle (le Thrésor de la Langue Francoyse de Jean Nicot) ainsi que du Französisches Etymologisches Wörterbuch [Dictionnaire Étymologique du Français] fondé par Walter von Wartburg à Bâle dans les années 1920 et dont la version informatisée est désormais administrée au CNRS par le laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française) à Nancy, tout comme le TLFi.

Mais ces entrées n’ont été rétroconverties que de manière superficielle (formelle et non fonctionnelle). Une rétroconversion formelle ne comporte que des annotations générales (ouverture et clôture des entrées) et typographiques (caractères en police romaine, italique, grasse et en petites capitales). De ce fait, il est actuellement impossible d’effectuer des recherches sur l’histoire des mots de la langue française faute d’annotations fonctionnelles (date de 1ère attestation du mot dans un certain sens, forme du mot ou contexte privilégié à cette époque, informations sur le champ encyclopédique, le registre ou le dialecte, les propriété grammaticales et les restrictions sémantiques).

Par ailleurs, les sciences du langage ont développé depuis le début du XXIe siècle des techniques de visualisation, notamment des relations sémantiques entre les mots du français actuel

  • (cf. François 2022, Les techniques de visualisation en Sciences du Langage, https://hal.archives-ouvertes.fr/hal-03797302/document).

Deux outils disponibles sur le site du CNRTL

et de sa plateforme ORTOLANG

  • (Outils et Ressources pour un Traitement Optimisé de la LANGue)

en témoignent avec l’accès au Dictionnaire Électronique des Synonymes du CRISCO

et à l’outil de visualisation de la « proxémie » sémantique

Sur la base de ces constats, le projet MGPE, initié depuis 2020 par Jacques FRANCOIS avec la collaboration de Laurette CHARDON (Ingénieure de recherches au CRISCO, Université Caen-Normandie) et Justine REYNAUD (MC en informatique à l’université Caen-Normandie) a une double visée :

  1. Sélectionner, segmenter et classer les données essentielles des notices historico-étymologiques du TLFi, et
  2. Visualiser ces données sous la forme d’un graphe historique dans un espace cartésien permettant de suivre de siècle en siècle l’extension de l’éventail des sens du mot recherché.

Le document ci-dessous fournit des liens vers les principales études actuellement publiées ou diffusées sur Internet dans le cadre de ce projet.

Fichiers disponibles MGPE 5.12.2022