Dès le début de l'entreprise du Dictionnaire du français québécois (DFQ), dans les années 1970, l'équipe du Trésor de la langue française au Québec (TLFQ) a jeté les bases d'un projet informatique touchant les diverses étapes de la réalisation du dictionnaire (Juneau & Poirier 1979: 15-71; Poirier 1988: 106).
Aujourd'hui, l'équipe a le sentiment que les principes directeurs qu'elle avait arrêtés à l'époque étaient les bons. Avec la révolution qu'ont entraînée l'arrivée massive des micro-ordinateurs et le développement des logiciels, il est devenu possible de réaliser les objectifs de départ et même de les dépasser largement.
Cet article vise à montrer comment l'équipe du TLFQ envisage de tirer parti de trois logiciels différents afin de gérer l'établissement du texte de son dictionnaire et d'exploiter le corpus informatisé que constitue ce texte qui se développe et s'enrichit continuellement.
Le corpus d'articles du DFQ a un statut particulier: il constitue la synthèse lexicographique des informations disponibles dans les autres corpus informatisés et dans le fonds documentaire du TLFQ. Ce corpus d'articles doit cependant pouvoir répondre continuellement à une double série d'exigences. Ces exigences sont imposées, d'une part, par le logiciel utilisé pour l'édition électronique du dictionnaire et, d'autre part, par le logiciel utilisé pour l'exploitation automatique des textes. Cette double utilisation d'un seul et même corpus pose un problème d'ordre technique: comment, en effet, adapter le corpus d'articles afin qu'il puisse se conformer tour à tour aux exigences spécifiques que requièrent l'édition électronique et l'exploitation automatique sans devoir multiplier en autant de versions chacun des articles de ce corpus?
Le DFQ est entièrement réalisé par l'équipe du TLFQ, de la conception des textes jusqu'à la production du prêt-à-photographier. Dans le traitement informatique du DFQ, la saisie des articles est effectuée au moyen du logiciel WordPerfect, l'édition électronique du dictionnaire au moyen du logiciel Ventura Publisher et l'exploitation du corpus d'articles au moyen du logiciel TACT.[1] Pour articuler entre elles ces diverses opérations, le TLFQ a développé, au moyen du logiciel WordPerfect, des scripts d'encodage automatique des articles. Ces scripts permettent de tirer profit de chacun des trois logiciels servant au traitement du corpus que forment les articles.
Basées sur l'exécution de scripts de commandes (ou macros) WordPerfect, les opérations de codification consistent à insérer des codes spécifiques dans le texte de l'article. Deux scripts de codification automatique (codification 1 et 2, Figure 1) ont été rédigés. Le premier de ces scripts de codification prépare les articles en vue de leur édition électronique sous Ventura Publisher. Le second prépare les articles en vue de leur exploitation par le logiciel TACT. La codification par WordPerfect permet de conserver aux articles leurs attributs de mise en forme originale (gras, italiques, exposants, etc.) en évitant l'enregistrement des fichiers en format ASCII. Ainsi, chacun de ces trois logiciels joue un rôle spécifique et indispensable dans le traitement informatique global du corpus d'articles.
Un article de dictionnaire est une forme de texte qui possède une structure particulière qui définit la façon dont les informations vont se succéder et se présenter visuellement dans le corps de l'article. La saisie des articles est donc assujettie à un certain nombre de conventions typographiques qui en balisent le texte. Dans la Figure 2, on note que chaque type de rubrique est annoncé par un signe typographique distinct: les rubriques des sens principaux débutent toujours par un losange plein; celles des sens secondaires par un losange vide; celles des dérivés débutent par un triangle, etc.
En plus des codes typographiques qui commandent les multiples changements d'attributs de caractères dans l'article, deux codes supplémentaires, destinés au repérage d'informations spécifiques, -- <$!OR.xxxx.yyyy> et <$!AUT> -- sont insérés dans l'article. Ces deux codes ou jalons servent respectivement à identifier l'origine historique des emplois traités dans le DFQ (archaïsme, dialectalisme, etc.) et les auteurs cités dans les exemples qui servent à illustrer ces emplois.[2] À l'impression, l'article, tel que rédigé par les rédacteurs, se présente donc comme dans la Figure 2.
Pour permettre ce résultat à l'impression, WordPerfect insère ses propres codes cachés dans le texte de l'article. La Figure 3 illustre un extrait du même article avec les codes WordPerfect qui en déterminent l'apparence à l'impression.
Cette version déjà truffée de codes -- qui ne gênent pas le rédacteur puisqu'ils sont cachés et ne sont pas reproduits sur papier -- servira de point de départ aux opérations de codification subséquentes.
Il faut bien voir ici le rôle central que joue le logiciel WordPerfect: d'une part, il sert à la saisie des articles et, d'autre part, il a la charge de convertir les fichiers d'articles, par le recours à des scripts, en fonction des exigences imposées par les deux autres logiciels utilisés dans le traitement des articles.
Si l'article est destiné à l'édition électronique, il se présentera, au terme de l'encodage automatique effectué par WordPerfect, comme dans la Figure 4.
Si l'article est destiné à être interrogé au moyen de TACT, il se présentera, au terme de l'encodage automatique qu'effectue WordPerfect, comme dans la Figure 5.
C'est donc au moyen de scripts de codification que le même texte original peut être automatiquement adapté aux exigences spécifiques de Ventura Publisher et de TACT. Cette façon de procéder présente l'avantage d'adapter la 'machine' aux besoins des lexicographes et non l'inverse -- principe qui a constamment guidé les responsables du TLFQ dans l'utilisation des ressources informatiques.
Le fichier d'article, une fois encodé pour l'édition électronique (cf. Figure 4), sera "interprété", dans Ventura Publisher, par un fichier de style qui détermine comment doivent être disposées les informations sur la page imprimée. Ventura Publisher gère les fichiers de format WordPerfect, d'où l'utilité de codifier les textes dans WordPerfect même afin de conserver tous les attributs originaux de mise en forme du texte. Sans plus de remaniement, l'article se présentera dans sa version imprimée tel qu'il apparaît dans la Figure 6.
Le dictionnaire est donc mis en pages sur place, ce qui permet les ajouts et corrections jusqu'à la dernière minute. Les auteurs du DFQ bénéficient par le fait même d'une grande autonomie dans toutes les étapes liées à l'édition électronique de l'ouvrage.
Tous les codes insérés automatiquement dans les articles vont permettre d'effectuer diverses recherches. Le rôle essentiel de la codification consiste ici à rendre repérables, au cours d'une recherche, la plupart des informations que contient un article. Par exemple, c'est uniquement parce que chaque rubrique de la microstructure a explicitement été encodée au moyen d'un jalon de repérage (tel que <r Vedette>, <r SensP>, <r Dér>, etc.), qu'il est possible de faire porter la recherche sur l'information contenue dans chacune de ces rubriques.
Cette nouvelle codification du DFQ transforme celui-ci en une base de données dictionnairiques et historiques du français québécois. Il s'agit là, à notre connaissance, de la première base de ce genre pour le français du Québec. Les chercheurs du TLFQ disposent ainsi d'un outil incomparable qui leur permet d'effectuer des analyses portant sur le discours lexicographique du DFQ et sur les nombreux matériaux utilisés pour illustrer ce discours au fur et à mesure de sa construction. Voici quelques brefs exemples qui illustrent les types de recherche qu'il est possible d'effectuer.[3]
Grâce au jalon identifiant la rubrique des exemples (cf. Figure 5, <r Exemple>), il est possible de rechercher des attestations de mots dans la banque d'exemples du DFQ. Imaginons que le rédacteur, étudiant le mot chemin à partir des exemples figurant dans le fichier lexical du TLFQ, voudrait élargir son corpus en récupérant les passages où le mot est employé dans des exemples déjà cités dans le dictionnaire et qui pourraient ne pas faire partie de ceux réunis pour ce mot dans le fichier. Il n'a qu'à interroger le corpus des articles au moyen de TACT qui lui apprend immédiatement que le mot figure dans 24 exemples cités et lui offre la possibilité de les visualiser, d'en choisir un échantillon et de l'imprimer, le cas échéant. Bref, le jalonnage automatique de la rubrique des exemples permet, par le recours à TACT, de faire en sorte que chacun des mots d'un exemple déjà cité dans le dictionnaire puisse être récupéré, qu'il ait ou non été identifié comme mot vedette dans le fichier lexical du TLFQ. La Figure 7 montre quelques-uns des exemples que le rédacteur obtiendrait pour le mot chemin.
Comme on peut le constater, TACT affiche en majuscules le titre de l'article dans lequel l'exemple est cité et la référence complète de l'exemple, ce qui permet de retourner à la source originale sans plus de recherche. Il est évidemment possible de commander des recherches beaucoup plus spécifiques. Par exemple, on aurait pu ne faire lister ici que les occurrences du mot dans le syntagme chemin de fer ou encore les occurrences du mot chemin dans le syntagme chemin de fer mais seulement lorsque chemin de fer est lui-même en cooccurrence avec n'importe laquelle des formes verbales de bâtir.[4] On aurait également pu ne faire lister que les contextes provenant d'ouvrages dont la date est postérieure à 1960, etc. Ainsi, la banque des exemples cités dans le dictionnaire devient un complément d'information indispensable du fichier lexical et des autres sources primaires du TLFQ.
Les jalons servant à identifier les rubriques de sens (cf. Figure 5, <r SensP> et <r SensS>) vont permettre de rechercher des informations dans le texte même des définitions. La Figure 8 montre l'emploi de l'abréviation "spécial." dans les définitions du DFQ. Ce type de recherche est particulièrement utile, par exemple, pour s'assurer de la cohérence de l'emploi d'une abréviation à contenu spécialisé dans l'ensemble du discours définitoire de l'ouvrage.
Le jalon qui sert à identifier l'origine historique des emplois traités dans le DFQ (cf. Figure 5, <j Origine>) permet, par exemple, d'étudier la distribution des catégories d'origine des québécismes dans le dictionnaire en illustrant leur fréquence relative. Comme le montre la Figure 9, les emplois d'origine anglaise dominent dans l'échantillon sélectionné. Ils sont notés par les codes angl (pour anglais) et anam (pour anglais américain). Ces emplois représentent 330 des 864 emplois traités. Ils sont suivis par ceux d'origine dialectale, notés dial, qui représentent 228 des 864 emplois traités. Enfin, on peut noter que les emplois découlant d'une innovation, notés inno, peu importe la source de départ, sont également en nombre élevé puisqu'ils représentent 259 des 864 emplois traités dans l'échantillon.
On pourrait encore vouloir mettre en rapport les catégories d'origine des québécismes et la mention "emploi critiqué" afin de voir si l'on peut établir une certaine correspondance entre les deux. L'échantillon de la Figure 10 suggère que les condamnations, dont rend compte le DFQ, frappent presque toujours les emplois d'origine anglaise, notés angl ou anam. Ils représentent 26 des 28 emplois critiqués dans les sources secondaires (glossaires, manuels de bon usage, etc.) -- un échantillon plus large permettrait sans doute de nuancer un peu cette mise en rapport presque systématique.
Le jalon qui sert à identifier les marques d'usage dans le DFQ (cf. Figure 5, <j Marque>) va permettre, pour sa part, de connaître leur distribution dans le dictionnaire, révélant, du même coup, la fréquence avec laquelle chaque marque d'usage est employée dans l'ensemble des articles. Cette information est indispensable pour quiconque désire aborder l'étude des québécismes en fonction des registres d'usage, de leur vitalité actuelle, etc.
La Figure 11 montre que, dans l'échantillon sélectionné, la marque d'usage la plus fréquente dans les emplois traités est "vieilli". Il ne faut pas en conclure pour autant que les québécismes sont majoritairement des emplois vieillis. En effet, la distribution de cette figure ne tient pas compte des emplois traités pour lesquels aucune marque d'usage n'est mentionnée. La marque "vieilli" est donc la marque la plus fréquente parmi les emplois qui contiennent des marques d'usage. Un compteur d'emplois traités sera prochainement inséré dans le corpus d'articles. Celui-ci permettra de connaître le nombre total d'emplois traités dans le DFQ. En soustrayant la somme des emplois contenant une marque d'usage du nombre total d'emplois traités, on obtiendra alors le nombre d'emplois pour lesquels aucune marque d'usage n'est mentionnée. Tous les emplois traités seront ainsi pris en compte -- ceux qui contiennent des marques d'usage et ceux qui n'en contiennent pas.
Lorsque TACT affiche un résultat de recherche sous la forme d'une distribution (Distribution Display), il tronque les données de la colonne de gauche afin de pouvoir afficher une représentation de la fréquence dans la colonne de droite. Malheureusement, la largeur de la colonne de gauche est fixe. D'où les formes tronquées vieilli et, vieilli ou, dans la colonne de gauche de la Figure 11. L'intérêt premier de ce type d'affichage est de faire ressortir visuellement la fréquence des diverses valeurs associées à une variable -- ici les valeurs de la variable marque d'usage. Quoiqu'il en soit, la Figure 12 montre que TACT permet également un affichage de type duplex (Window Display) qui vient combler les lacunes dues aux troncatures lorsque le format d'affichage sélectionné est de type distributionnel.
Cette forme d'affichage combiné permet ainsi de compléter au besoin les informations de la partie du bas (Distribution Display) en montrant automatiquement, dans la partie du haut (Variable Context Display), le passage correspondant à l'endroit où se trouve le curseur dans la partie du bas.
Il est également possible de cumuler les critères de recherche en combinant, par exemple, les jalons de marque d'usage et de catégorie d'origine. On pourrait ainsi se demander quelle peut être la distribution des catégories d'origine uniquement parmi les emplois qui sont marqués comme étant "vieux" ou "vieilli". On obtiendrait alors le résultat qui apparaît dans la Figure 13.
On constate que l'origine la plus fréquente parmi les emplois marqués "vieux" ou "vieilli" est dialectale (dial). La mise en rapport de ces deux jalons pourrait donc permettre de faire ressortir, le cas échéant, des tendances montrant le sort qu'ont connu les québécismes selon qu'ils provenaient des dialectes, de l'anglais, du français, etc.
TACT permet de prendre rapidement connaissance des articles dans lesquels apparaît un code d'origine particulier. La Figure 14 montre un extrait des articles qui comportent des emplois identifiés comme étant des dialectalismes.
Ainsi, l'article zigonner contient, à lui seul, dix emplois d'origine dialectale. Puisqu'il permet d'obtenir la liste des articles contenant des emplois d'origine spécifique, ce type de recherche est particulièrement intéressant pour constituer rapidement un sous-corpus en vue d'une étude spécialisée sur un thème, ou simplement pour choisir des exemples en vue d'illustrer une conférence, d'étoffer un cours, etc. On pourrait, par exemple, demander la liste des articles contenant des emplois d'origine amérindienne afin de déterminer les champs d'appartenance conceptuelle de ceux-ci (faune, flore, toponymie, etc.)
On peut également effectuer une recherche visant à repérer les articles qui contiennent une marque d'usage en particulier. Ici aussi, le résultat pourra être visualisé dans l'un ou l'autre des formats d'affichage offerts par TACT: KWIC, Distribution, Window, Variable Context et Text. Par exemple, la Figure 15 montre, dans un format d'affichage KWIC, une partie des nombreux articles dans lesquels la marque d'usage "vieilli" est employée.
Le jalon qui identifie les auteurs cités dans les articles (cf. Figure 5, <j Aut>) permet deux choses: établir la liste des ouvrages cités d'une part et, d'autre part, établir la liste des auteurs cités. Il peut donc servir à mesurer la fréquence avec laquelle un auteur ou un ouvrage est cité dans le dictionnaire et à guider, au besoin, une intervention pour rétablir un équilibre. La Figure 16 présente la liste des ouvrages qui sont cités plus de deux fois dans l'échantillon d'articles.
On constate ainsi qu'un ouvrage de Ducharme est cité à dix reprises dans l'échantillon d'articles. En choisissant un format d'affichage Variable Context, on obtiendra alors toutes les précisions nécessaires sur les références, comme le montre la Figure 17.
Le jalon d'auteur, tout comme les autres jalons, peut être ajouté à d'autres jalons (origine, marque d'usage, etc.), comme autant de critères pouvant être utilisés lors d'une recherche. Mais bien plus qu'un simple jeu d'association de critères de recherche, les jalons du corpus d'articles du DFQ procurent à l'équipe du TLFQ les outils nécessaires, et longtemps attendus, avec lesquels elle peut désormais interroger le dictionnaire au fur et à mesure de son élaboration.
La micro-informatique ne cesse de révolutionner la discipline lexicographique en créant des conditions extrêmement favorables au renouvellement de la pratique dictionnairique. L'entreprise du TLFQ consiste principalement à produire un dictionnaire, mais au-delà de cet objectif concret, dont la réalisation permettra enfin de disposer d'une explication d'ensemble des traits caractéristiques du lexique québécois, le but visé est de créer une véritable infrastructure de recherche sur le lexique et de constituer ainsi une base scientifique pour la lexicographie du français en Amérique du Nord. De ce point de vue, le Dictionnaire du français québécois constitue déjà un apport, même avant sa publication: il s'agit de la première base de données dictionnairiques du français québécois.
On a illustré ci-dessus quelques-unes des recherches qui peuvent être réalisées sur cette base de données à l'aide du logiciel d'exploitation TACT. Ces recherches avaient été planifiées depuis longtemps et certaines d'entre elles étaient effectivement possibles avant l'arrivée de TACT. Mais, ce qu'il y a de nouveau, c'est la facilité avec laquelle toutes ces recherches peuvent maintenant s'effectuer à partir d'un simple micro-ordinateur et le nombre incroyable des possibilités d'exploitation offertes. Les rédacteurs du Dictionnaire du français québécois pourront sous peu -- puisque le système est encore en rodage -- lire le texte de l'ouvrage qu'ils rédigent avec des yeux nouveaux. L'ordinateur vient en effet de rendre possible une vue en plusieurs dimensions du texte du dictionnaire. Grâce à cet apport de l'informatique, ils seront en mesure de mieux gérer leur discours de lexicographes et de dégager des synthèses au fur et à mesure que l'ouvrage prendra forme. Selon l'opposition proposée par B. Quemada, de la dictionnairique, qui est une pratique axée sur la production concrète d'un ouvrage, on revient donc à la lexicographie, discipline dont l'horizon est plus large et qui est une des branches de la lexicologie.
[1] TACT est un logiciel d'analyse de bases de données textuelles développé par le Groupe TACT de l'Université de Toronto (cf. Wooldridge 1991). Les résultats présentés dans cet article ont été obtenus avec la dernière version disponible à ce jour (1.2). [NDLR: La terminologie employée ici est celle de la version 2.1: (1.2) Category --> (2.1) Group; Index --> KWIC; KWIC --> Variable Context; Panel --> Window. Voir la notice sur la disponibilité de la dernière version.]
[2] Les codes débutant par la séquence <$! ont l'avantage d'être invisibles dans le document Ventura Publisher. Ils permettent donc de véhiculer des informations dans l'article sans entraver l'édition électronique de celui-ci.
[3] Tous les exemples de recherches mentionnés dans cet article portent, à moins d'indication contraire, sur un échantillon de 205 articles répartis entre les lettres A et Z de la nomenclature du DFQ.
[4] TACT -- comme plusieurs autres logiciels d'analyse de bases de données textuelles -- offre la possibilité de regrouper des formes en créant des Groupes. Ces groupes peuvent ensuite être utilisés dans une recherche. Insérer un groupe dans une requête revient ainsi à chercher chacune des formes réunies dans ce groupe sans avoir à les inscrire dans la formule. Ici, par exemple, toutes les formes verbales du verbe bâtir seraient rassemblées dans le groupe @bâtir.