Mon examen des débuts de la lexicographie française, centré sur le Thresor de la langue françoyse de Jean Nicot (Wooldridge, 1977), m'a amené à définir un corpus d'étude comprenant, en plus du Thresor, les différentes éditions des dictionnaires qui y ont mené directement:
La Figure 1 montre la filiation des dictionnaires du corpus.[1]
Il y a douze ans, j'ai commencé, grâce à des subventions du Conseil de recherche en sciences humaines du Canada et d'une aide de l'Institut national de la langue française (CNRS), la constitution d'une base électronique comprenant les ouvrages clés du corpus:
Pour chaque texte les parties saisies sont les suivantes:
Si dans le passé on a dû se contenter, pour les textes informatisés, de sorties prédéterminées, figées et coûteuses sur papier ou microfiches (cf. Wooldridge, 1985a), la micro-informatique permet maintenant la création et l'utilisation bon marché de bases de données souples et dynamiques dans lesquelles le choix des unités d'interrogation est déterminé en majeure partie par l'utilisateur. La base Estienne-Nicot existe actuellement en deux versions, gérées sur PC par les logiciels de recherche de données textuelles WordCruncher et TACT, respectivement. La principale supériorité de TACT par rapport à WordCruncher est que le premier permet un codage non hiérarchique et en nombre illimité de champs textuels hiérarchiques ou non hiérarchiques. Cette qualité a une grande importance si l'on veut rendre compte des niveaux et champs du texte dictionnairique.
On pourrait objecter que les sorties de la base Estienne-Nicot ont déjà été prédéterminées dans la mesure où, sauf dans le cas du Thresor, j'ai choisi de ne pas faire une saisie intégrale des textes. Mes raisons de procéder ainsi sont à la fois pratiques et scientifiques. D'abord, je n'aurais pas été subventionné pour faire une saisie intégrale. L'inclusion du latin -- dont seule une partie informe le français -- des alinéas bilingues du Thesaurus aurait multiplié le texte électronique par un facteur de plus de 5; celle de tout le latin par plus de 6. L'addition des alinéas latins du Dictionarium aurait doublé la taille du texte machine; celle des items hérités -- presque tous présents dans le Thresor -- de chacune des six éditions du Grand Dictionaire françois-latin aurait amplifié le texte électronique global par un facteur de 30. Déterminer quelle partie du latin informe le français du Thesaurus, quelle partie du texte hérité informe les ajouts du GDFL, ce serait chose tout à fait arbitraire. La base a été constituée dans le but de fournir une clé au lexique français et à la lexicographie française du corpus Estienne-Nicot. Je serais ravi qu'un spécialiste de la lexicographie latine complète la saisie du Thesaurus et du Dictionarium.
Pour l'organisation de ses matériaux, Estienne regroupe les mots d'une même famille dérivationnelle en un macroarticle (microstructure niveau 1), dont chacun des mots-adresses avec les informations sur le mot forme un microarticle (microstructure niveau 2). Le mot chef de famille est traité dans le premier microarticle, son adresse constituant la vedette du macroarticle; les macroarticles sont classés par ordre alphabétique des vedettes (macrostructure). Ce système est employé de façon régulière dans le Thesaurus, le DLG et les deux premières éditions du DFL (les seules parues sous la direction d'Estienne). Les successeurs d'Estienne -- Thierry, Dupuys, Nicot, les éditeurs du GDFL -- minent petit à petit ce système tripartite par l'abandon ou le mésusage des distinctions typographiques (hiérarchie des caractères d'imprimerie et des mises en saillie/retrait), et le placement mi-microstructurel, mi-alphabétique des additions (surtout chez Thierry et plusieurs éditions du GDFL).
Composants: Adresse, Conjugaison/Déclinaison, Catégorie grammaticale, Sens, Syntagme, Définition, Équivalent, Source d'adresse/sens/syntagme, Exemple signé. Les informations sur la conjugaison ou déclinaison et la catégorie grammaticale sont données dans le premier alinéa. La définition est rédigée soit en latin, soit en français. Un alinéa contient typiquement plusieurs exemples signés étendus. L'extrait suivant (macroarticles ALNVS et ALO) peut servir d'illustration.[3]
Les adresses de microarticle sont mises en saillie; l'article ALTILIS contient deux alinéas, tous les autres n'en contiennent qu'un chacun.
S'il est possible d'analyser l'extrait ALNVS-ALO en composants séquentiels, il est d'autres cas qui y résistent:
Dans la version TACT de la base textuelle, l'extrait ALNVS-ALO se présente de la façon suivante:[4]
<p 27r23>¦ <a alnus>arbre croissant es rivaiges des fleuves, duquel on faict les bonnes navires,
<p 27r24>\ aulne.
<p 27r25>¦ <a alo>Nourrir, alimenter.
<p 27r31>¦ <a alimentum>Aliment, viande.
<p 27r32>¦ <a altilis>Chose de nourriture. \ toute nourriture soient en maison, | ou metairie, ou en viviers et estangs.
<p 27r34>¦ Ung gros douaire.
<p 27r36>¦ <a alumnus>Enfant, ou personne que aucun nourrit, soit de viandes corporelles, ou de | science.
<p 27r38>\ C*est icy ta nourriture, ta fille que tu as nourrie.
Pour les occurrences dans l'extrait de nourriture, le mode d'affichage "Index"[5] de TACT donne le résultat suivant:
nourriture (3) (altilis 27r32) Aliment, viande. ¦ Chose de nourriture. \ toute nourriture (altilis 27r32) de nourriture. \ toute nourriture soient en maison, (alumnus 27r38) | science. \ C*est icy ta nourriture, ta fille que tu
Composants: Adresse, Conjugaison/Déclinaison, Catégorie grammaticale, Dérivation/Étymologie, Sens, Syntagme signé, Définition, Équivalent, Source d'adresse/sens. Les informations sur la conjugaison ou déclinaison et la catégorie grammaticale sont données dans le premier alinéa. La définition est rédigée soit en latin, soit en français. Un alinéa ne contient qu'un exemple-syntagme signé réduit; une ligne typographique peut contenir plusieurs alinéas. Soit le macroarticle ALNVS:[6]
Alnus, huius alni, f.g. Arbor fluuialis, siue palustris. Plin.
Vne aune.
Alta alnus.Senec. Alnus amica fretis. Stat.
Electrifera alnus. Claudian. Fluminea. Sil. Ital.
Longa. Ouid. Procera.Virgil. Viridis. Virgil.
¶Alnus, pro nauigiolo. Claudian. Petite nasselle, ou Esquif.
Leuis alnus. Virgil. Alnus apta fluctibus. Lucan.Alnetum, alnéti pen. prod. Vn aunoy, Vn lieu pourplanté d'aunes.
Alneus, Adiectiuum, Quod ex alno factum est: vt, Pali al-nei. Vitruuius. Pieux ou pilotis d'aune.
Les adresses de microarticle sont mises en saillie; le microarticle ALNVS contient onze alinéas-items, les deux autres n'en contiennent qu'un chacun. Les dérogations à la séquentialité des composants sont peu nombreuses dans le texte parcellaire du DLG.
Dans la version TACT de la base textuelle, l'extrait ALNVS se présente de la façon suivante:[7]
<p 78.1><l 20><a ·alnus>¦ <t L4>Alnus, <t L3>huius alni, f. g. Arbor fluuialis, siue palustris. Plin. | <t F1>Une aune.
<l 25>¦ <t -0># <t L3>Alnus, pro nauigiolo. Claudian.
<t F1>Petite nasselle, ou Esquif.
<l 27><a ·alnetum>¦ <t L3>Alnetum, alneti pen. prod. <t F1>Un aunoy, Un lieu pourplanté d' aunes.
<l 28><a ·alneus>¦ <t L3>Alneus, Adiectiuum, Quod ex alno factum est: vt, Pali al|nei. Vitruuius. <t F1>Pieux ou pilotis d' aune.
On peut demander à TACT de traiter les valeurs d'une variable à la fois comme jalon de référence et comme mot (méta)textuel; l'identificateur de mot-adresse "·" (ASCII 249) a pour effet de regrouper les adresses (mots métatextuels) dans une tranche de la liste de mots (formes), les mots textuels dans une autre. Par exemple, alnus (mot de texte) se trouvera dans la tranche A-Z, · alnus dans la section · A-· Z. On peut découvrir ainsi que passus sert d'adresse à trois microarticles, sous les vedettes PANDO, PASSVS ("un pas") et PATIOR, respectivement.
Composants: Adresse, Variante, Catégorie grammaticale, Accentuation, Dérivation/Étymologie, Remarque sur l'Orthographe/Prononciation, Sens, Syntagme, Usage, Définition, Synonyme, Analogue, Dérivé, Équivalent, Cognate, Exemple forgé, Exemple signé, Source d'adresse/sens/usage/équivalent, Commentaire encyclopédique, etc. Un microarticle peut contenir entre un et la totalité des composants énumérés ci-dessus et dans un ordre à peu près imprévisible, bien que l'Adresse soit généralement donnée au début suivie de la Catégorie grammaticale -- quand celle-ci est fournie. De plus, les informations sont souvent superposées, imbriquées ou enchâssées. Le Thresor est non seulement la somme des quatre éditions du DFL plus ses propres ajouts et révisions, il est aussi le cumul des méthodes d'Estienne, de Thierry et de Nicot.
Comme modèle structural entre mille, prenons le cas relativement simple du microarticle AUMOSNIER. Le texte original est comme suit:[8]
Ce qui pourrait s'analyser de la façon suivante:
Adresse:
Aumosnier
Cat. gramm. globale:
m.
Accentuation:
acut.
Cat. gr. particulière 1:
(Est tantost) substantif
Sens:
(& signifie) cet officier des Princes & grands Seigneurs, seculiers ou Ecclesiastiques, lequel anciennement estoit seulement destiné à distribuer leurs aumosnes, mais depuis leur sert-il aussi de chappelain
Équiv. latin signé:
Sacræ ac piæ stipis erogator. B.
Équiv. lat. non signé:
Eleemosynarius
Équiv. espagnol:
(L'espagnol au mesme substantif dit) Lismonero
Cat. gr. particulière 2:
(& tantost) adiectif
Sens:
(& signifie) celuy qui donne souuent l'aumosne
Exemple:
Pierre est bien aumosnier
Variante de l'exemple:
(ou) [Pierre] est vn grand aumosnier
Équiv. lat. de l'ex.:
Petrus est eleemosynæ dandæ studiosus
Variante de l'équiv.:
[Petrus] incumbit eleemosynæ
Équiv. espagnole:
(en laquelle signification adiectiue, L'espagnol dit aussi) Limosnero
Équiv. lat.:
Eleemosynarius
Syntagme:
D'Euesque deuenir aumosnier
Variante marquée:
(ce que inaduertamment, & par trace de l'erreur du peuple, on dit) d'Euesque deuenir musnier
Très fréquents chez Nicot sont les alinéas étendus dans lesquels le discours métalinguistique sur le mot est presque noyé dans un discours encyclopédique référencé. Dans le premier alinéa de l'article CHAUSSETRAPE, la définition, l'exemple signé, les équivalents et l'étymologie (du latin) sont imbriqués dans un long commentaire sur la chose.[8]
La base du Thresor a essentiellement la même structure que celle du DLG (v. supra). Le codage linguistique est plus complexe: un mot ou séquence peut appartenir à langue A et langue B (ad nutum dans "<t F1>Benefices revocables <t FL1>ad nutum, <t L3>Sacerdotia precaria."), ou à langue A ou langue B (f. penac. dans "<t F4>Aumosne, <t F/L3>f. penac.").
Comme la totalité des additions des six éditions du GDFL ne fait augmenter le nombre de lignes de texte ou de mots français du DFL 1573 que d'environ 25%, je me contente ici de décrire les démarches caractéristiques de chaque édition.
Les informations nouvelles sont le plus souvent ajoutées à un alinéa existant. L'ajout le plus caractéristique est la Prononciation, largement codifiée.[9] Exemples pris dans S 1606 (je mets entre crochets les parties héritées):[8]
Les quelques ajouts de Baudoin concernent surtout la zoologie et la botanique.[8]
Les ajouts de Poille sont typiquement courts. Il a une prédilection pour les variantes attestées chez les poètes (modèle: "X pour Y. Source.").
} Ay' pour aye d'auoir. Bellay.
} Bandroit, pour banderoit. Rons.
Les additions de Marquis sont variées en forme (alinéas courts et longs, ajouts à des alinéas existants ou dans des alinéas nouveaux) et en contenu (entre autres: vocabulaire technique, régionalismes, variantes graphiques, épithètes). Exemples (je mets le texte hérité entre crochets):[8]
La contribution de Voultier se caractérise par la réorganisation en alinéas complexes d'alinéas simples hérités et par l'addition de nombreux synonymes ou parasynonymes (modèle: "[X] Voyez Y").[11]
devient chez Voultier:
De Brosses ajoute un petit nombre d'items, typiquement bilingues.[12]
¶ Cela s'est fait par accident. Casu factum est.
¶ Vn mauuais accident, Infortunium. (s.v. ACCIDENT)
L'analyse exhaustif du texte de ces dictionnaires en champs correspondant aux composants de la microstructure serait par trop arbitraire et sujette au désaccord des utilisateurs de la base, à commencer par l'auteur de l'analyse lui-même. À ce genre de codage, j'ai préféré pour la Concordance du Thresor préparer des listes de mots-clefs métalinguistiques organisées par type d'information: Catégorie grammaticale; Caractérisation accentuelle; Orthographe et Prononciation; Étymologie; Variante, Synonyme et Antonyme; Traitement sémantique (Ordonnateurs, Copules et Définisseurs); Exemple; Équivalent; Renvoi; Marque d'usage; Source nommée (Wooldridge, 1985a: 22-37).
Un bon point de départ pour l'étude du vocabulaire de la musique, par exemple, est fourni par l'ensemble musicien/musiciens/musique. La cooccurrence de ces formes et d'une des formes aux/en/entre/les immédiatement avant rend les éléments suivants (c'est moi qui souligne):[13]
(Thresor NEUME)
Mot particulier aux musiciens
(Thresor BASSE-CONTRE)
l'une des quatre parties des chansons en musique et la plus basse, que les musiciens apellent bassus.
(Thresor CONTREPOINCT)
Contrepoinct en musique.
(Thresor FREDON)
Fredon, en musique
(Thresor HAULTECONTRE)
une des quatre parties des chansons en musique, et celle qui entonne hault.
(Thresor MINIME)
Minimes en musique
(Thresor TAILLE)
en Musique, Taille est la partie des quatre, qu'on dit Tenor.
(Thresor TENEUR)
Teneur en musique.
(Marquis BOURDON)
Faux Bourdon en musique.
(Marquis CONCORDANT)
Trois superius avec un Concordant en musique,
(Marquis DISCORDANT)
Discordantz accors en musique.
(Voultier CONSONANCE)
C'est quand une chose s'accorde avec une autre comme en musique ou choses semblables.
(Thresor ACCORDANCE)
ce mot est plus usité entre musiciens qu'ailleurs.
(Thresor DISCORDANT)
par metaphore, Dissonant entre Musiciens
(Thresor ACCORD)
Selon ce les musiciens disent une tierce, quinte ou diapason estre bons accords.
(Thresor BASSE-CONTRE)
l'une des quatre parties des chansons en musique et la plus basse, que les musiciens apellent bassus.
(Thresor CONTRE)
Contrehaute ou Hautecontre, et Contrebasse, ou Bassecontre, qui sont deux parties des quatre des chansons que les Musiciens rendent en Latin, Altus, Bassus.
[1] Les différences entre Poille 1609 et 1628, entre Voultier 1612 et 1614 et entre de Brosses 1614 et 1625 sont minimes.
[2] Stoer = 1593 (moins DFL 1573) + 1599 (moins 1593) + 1603 (moins 1599) + 1606 (moins 1603); Baudoin = Baudoin moins Stoer 1605; Marquis = Marquis moins Stoer 1603; Poille = Poille moins Stoer 1605; Voultier = Voultier moins Baudoin; de Brosses = de Brosses moins Marquis. Pour plus de détails, voir Wooldridge, 1992.
[3] NDLR: Les ronds noirs signifient ici début d'alinéa en saillie. La barre verticale ("|") marque la mise en lignes de l'original.
[4] <p = feuillet (ex. feuillet 27, recto, ligne 23); <a = adresse; ¦ = nouveau paragraphe; \ = saut dans le même paragraphe; | = frontière de lignes; * = explicitation de frontière de mot.
[5] NDLR: "Index" s'appelle maintenant "KWIC". Cf. J. Bradley, CHWP B.1; cf. aussi la notice sur la diffusion de TACT.
[6] NDLR: La mise en lignes est en principe -- selon le navigateur utilisé et la largeur de l'écran -- conforme à l'original.
[7] <p = page + colonne; <l = ligne; <t = langue et typographie (F = français, L = latin, - = hors langue, 1 = italique, 3 = romain moyen, 4 = grand romain, 0 = non alphabétique); · = identificateur de mot-adresse.
[8] NDLR: Rond noir = mise en saillie; barre verticale = frontière de lignes de l'original.
[9] La copule Prononcez s'écrit P. (1 fois), Pr. (117), Pro. (23), Pron. (293), Pronon. (25). Il y a alternance romain-italique ou italique-romain à l'intérieur du couple Copule-Prononciation.
[10] Marquis enregistre environ 170 arvernismes (Chambon & Wooldridge, 1990).
[11] NDLR: Rond noir = mise en saillie dans l'original.
[12] On revient à la méthode employée par Estienne dans le Dictionaire françois-latin.
[13] Pour de + musi(c)que: la séquence instrumen(t)(s) de musi(c)que se trouve in DLG (x 13), Thresor (11), Stoer 1599 (1), Baudoin (1), Marquis (1), Poille (7); chant de musique in DLG (1); mesure de musique in DLG (2), Thresor (1); art de musique in DLG (1), Thresor (3); deschant de musique in Thresor (1); motet de musique in Thresor (1); concert de musique in Marquis (1); maistre de musique in Marquis (1); note de musique in Marquis (1); piece de musique in Marquis (1). Cf. aussi Wooldridge, 1985b.