Bitexte, bi-concordance et collocation

Thèse déposée en décembre 1996 par Lucie Langlois
sous la direction de Roda P. Roberts
pour l'obtention de la Maîtrise en Traduction (Université d'Ottawa)

Résumé

Abstract

Table des matières

Chapitre 3 : LES COLLOCATIONS ET LES OUTILS INFORMATIQUES

Introduction

Nous avons déjà mentionné, au chapitre précédent, l'utilité d'une bi-concordance dans le repérage des collocations. Cependant, l'exploitation d'un bitexte avec un bi-concordancier ne permet pas de repérer systématiquement  les mots qui apparaissent habituellement ensemble  ainsi que leurs traductions. Dans le présent chapitre, nous allons examiner d'autres outils informatiques qui permettent, dans une certaine mesure, d'extraire automatiquement des collocations. Avant de passer aux outils informatiques comme tels, nous tenterons d'abord de préciser ce qu'on entend au juste par collocation et d'en présenter quelques typologies. Ensuite, nous expliquerons pourquoi il est primordial de les inclure dans tout dictionnaire bilingue.

3.1 Collocations

3.1.1 Désignation, définition et nature des collocations

Comme beaucoup de termes en linguistique et en lexicographie, le mot collocation ne fait l'unanimité ni quant à sa désignation ni quant à sa définition.

Le terme collocation a été proposé par J.R. Firth (1951) lorsqu'il affirme que  words shall be known by the company they keep . Bien que le terme collocation soit ancré dans l'usage en anglais, les linguistes français, eux, ont été aux prises avec une série quasi-synonymique de termes pour exprimer l'idée proposée par Firth. E. Lipshitz (1981), par exemple, utilise tour à tour phraséologie et phraséologismes(41) pour parler de groupements qui ne sont pas créés au fur et à mesure des besoins, mais qui sont reproduits intégralement par l'usager, car ils sont formés d'avance. Peut-être certains francophones voulaient-ils éviter le terme collocation, de peur de calquer le terme anglais. Même si Mounin a inclus le terme collocation dans son dictionnaire de 1974(42), il a mis le lecteur en garde : ce terme est  surtout employé par les linguistes anglais (43). Depuis quelques années, toutefois, le terme collocation semble s'être infiltré dans les textes des linguistes et lexicographes français. Le numéro spécial de la revue Meta(44) intitulé  Hommage à Bernard Quemada -- Termes et textes , par exemple, contient deux articles(45) traitant précisément de la collocation(46). C'est pourquoi, dans le cadre de cette thèse, le mot collocation sera utilisé en français pour désigner ce que les linguistes anglais appellent collocation.

Quoique Firth ait été le premier à utiliser le terme collocation, il ne l'a pas défini précisément. Si Mario Pei et Frank Gaynor (1954) ont défini ce terme dans leur dictionnaire, la définition qu'ils proposaient à l'époque,  arrangement of words in a sentence in order to properly convey the intended meaning , ne correspond pas à la définition actuelle du terme. Inspirés par Firth, les linguistes contemporains définissent maintenant la collocation en termes de  habitual co-occurrence of individual lexical items  (Crystal 1991), de  combinaison phraséologique de deux ou plusieurs mots dans laquelle les mots composants, quoique soumis à une contrainte lexicale, gardent encore leur autonomie de sens  (S.Q. Liang 1991:152) ou encore de  co-occurrence of two or more lexical items as realizations of structural elements within a given syntactic pattern  (Anthony Cowie 1978:132).

Ces  recurrent word combinations  (Morton Benson et al. 1986:vii), qui sont constitués de mots qui s'attirent l'un l'autre(47), sont un phénomène de langue. De par la nature même des collocations, les locuteurs les récupèrent de leur mémoire en bloc. Selon Sinclair (1991:110),  the language user has available to him or her a large number of semi-preconstructed phrases that constitute single choices . Dès lors qu'un locuteur veut rendre l'idée de  commencer , par exemple, il doit d'abord préciser le sujet qui fait l'action de commencer ou l'objet de cette action et ensuite choisir le verbe qui exprime effectivement l'idée de commencer dans ce contexte précis. Ainsi, on ouvre un procès, l'orage éclate, des pourparlers sont entamés et on entonne une chanson. Ces unités, que Maurice Pergnier (1980:307) appelle unités idiomatiques par rapport à unités structurales, sont caractérisées par deux traits,  construction et propriété d'une langue donnée  (Pergnier 1980:312), ce qui fait donc que  l'idiosyncrasie de la collocation ne se révèle définitivement que dans l'optique d'une autre langue qui combine, pour exprimer le même fait, des mots différents  (Franz Hausmann 1990:1013).

3.1.2 Types de collocations

Les chercheurs caractérisent les collocations selon divers critères. D.J. Allerton (1984), qui n'utilise pas le mot collocation comme tel mais parle plutôt de cooccurrences, les classe par niveau de restrictions : syntaxiques, sémantiques et locutionnelles. La première catégorie comprend exclusivement les combinaisons tributaires de la syntaxe(48). Allerton poursuit en montrant que l'acceptabilité de certaines combinaisons est régie au niveau de la sémantique puisque les traits sémantiques d'un mot sont en conflit avec ceux d'un autre(49). Le troisième type de restrictions, qu'il a appelées locutional en s'inspirant des  locutions toutes faites  de Ferdinand de Saussure (1964:172), sont arbitraires et imposées par la langue. Il inclut dans cette catégorie des combinaisons du type Verb+Prép(50) (to rely on), NomC+Prép (faith in), des verbes très fréquents qui ne prennent sens que lorsqu'ils sont combinés avec un substantif (to do, to get, to give, to have, to make, to put, to take), des verbes qui, lorsqu'ils sont associés à un nom, peuvent être remplacés par la forme verbale du nom en question (to exert influence = to influence). C'est surtout les deux dernières catégories, qui sont régies par des restrictions sémantiques et locutionnelles, qu'on nomme généralement collocation.

Cowie (1978) propose la typologie open collocation et restricted collocation. Dans la première catégorie, il inclut des combinaisons de mots qui, sur le plan de la sémantique, sont tellement généraux qu'ils peuvent être combinés de façon quasi-illimitée. Le verbe to run, par exemple, se combine avec presque tout : machine, business, horse, program, etc. Par collocations restreintes, Cowie entend des combinaisons de mots dans lesquelles le sens du mot A limite les possibilités pour l'élément B (par exemple, to explode a claim ou to kill a cigarette). Ces derniers sont beaucoup plus intéressants sur le plan de la lexicographie.

À son tour, Sinclair (1991:115) propose une autre façon de classifier les collocations. Il définit upward et downward collocations en fonction de la fréquence des composants de la collocation(51). Prenons, par exemple la collocation anglaise to give an audience, et supposons que les mots to give et audience reviennent 500 fois et 30 fois respectivement dans le corpus. Pour Sinclair, la relation collocationnelle entre ces deux composants change en fonction du mot à l'étude. Si le lexicographe s'intéresse au verbe to give et trouve que ce mot est fortement associé à audience, cette combinaison sera une downward collocation puisque le mot audience est moins fréquent que le mot à l'étude, soit to give. En revanche, si le lexicographe s'était intéressé au mot audience plutôt qu'à to give, la collocation aurait été du type upward puisque le verbe to give est plus fréquent que le substantif audience.

Comme nous l'avons vu, les chercheurs, en général, caractérisent les collocations selon leurs propres besoins. Ainsi, dans l'optique lexicographique, nous adopterons la typologie très simple proposée par Benson et al. (1986). Ils divisent les collocations en deux grands groupes, les collocations grammaticales et les collocations lexicales. La collocation grammaticale, que Hausmann (1990:1013) appelle construction, est constituée d'un mot dominant suivi d'une unité subordonnée (souvent une préposition ou une structure grammaticale, comme un infinitif ou une proposition). Les collocations grammaticales se présentent habituellement sous les formes suivantes (NomC = nom commun et AdjQ = adjectif qualificatif) :

Exemples de collocations grammaticales
Verb+Prépto abstain from,
s'abstenir de
NomC+Prépanger at,
sentiment envers
AdjQ+Prépabsent from,
absent de

Tableau 26-- Exemples de collocations grammaticales

Contrairement à la collocation grammaticale, la collocation lexicale, elle, est généralement formée de deux composantes lexicales d'importance plus ou moins égale. Typiquement, les collocations lexicales sont formées de noms (NomC), d'adjectifs(AdjQ), de verbes(Verb) et d'adverbes(Adve). En voici quelques exemples :

Exemples de collocations lexicales
NomC + Verbbombs explode,
l'orage éclate
AdjQ + NomCa confirmed bachelor,
un célibataire endurci
Verb + NomCreject an appeal,
interjeter appel

Tableau 27-- Exemples de collocations lexicales

Dans cette thèse, nous nous concentrerons sur les collocations lexicales puisque les collocations grammaticales se retrouvent souvent dans les grammaires et les dictionnaires et se repèrent assez aisément dans une concordance. Les collocations lexicales, par contre, sont plus négligées dans les ouvrages de référence et plus difficiles à repérer dans une concordance. Étant donné que seules les collocations lexicales seront à l'étude ici, nous utiliserons désormais le terme  collocation  pour désigner uniquement la collocation lexicale.

3.1.3 Identification des collocations

Si les collocations sont difficiles à repérer, c'est qu'elles se situent dans une zone floue, ce que Thierry Fontenelle (1994:45) appelle le fuzzy area entre la combinaison libre(52), le composé(53) et l'expression figée(54), dont les frontières sont loin d'être étanches. Nous adopterons les critères de Liang (1991) pour comparer la collocation à l'expression figée, puis à la combinaison libre. Ensuite, nous la comparerons aux composés.

Selon Liang, la collocation se démarque de l'expression figée sur trois plans : l'autonomie des composants, leur inaltérabilité sémantique et la substitution possible du collocatif.

Liang considère que les composants d'une collocation sont autonomes parce que, à l'inverse de leur rôle dans une expression figée, chacun conserve sa fonction grammaticale. De plus, on peut les manipuler sur le plan syntaxique (rédiger une dissertation et la dissertation a été rédigée)(55) ou encore insérer d'autres mots entre les composants (rédiger d'ici le mois prochain la meilleure des dissertations). Certes, toutes les collocations ne font pas preuve d'autonomie au même degré, mais il n'en reste pas moins qu'elles se démarquent des expressions figées à ce chapitre. Selon Liang, ce critère est le plus important des critères présentés ici.

Une autre caractéristique des composants d'une collocation est qu'ils conservent leur sens, propre ou figuré, tandis qu'une expression figée adopte globalement un sens figuré ou métaphorique. Ainsi, la collocation présente une certaine transparence. Cela dit, ce critère ne suffit cependant pas pour différencier les collocations des expressions figées, certaines collocations, comme to curry favour, pouvant aussi être opaques.

Finalement, Liang propose que les collocations se démarquent des expressions figées par le fait qu'il est assez souvent possible de substituer un collocatif par un autre sans changer le sens de la collocation, par exemple, jeter/établir/poser/asseoir les bases de quelque chose (Liang 1991:153), phénomène que Hausmann (1990:1010) appelle le non-figement d'une collocation. Comme c'était le cas pour la caractéristique précédente, cependant, certaines expressions figées permettent aussi ce genre de substitution, notamment ne demander/ne chercher/ne rêver que plaies et bosses (Liang 1991:153).

Nous avons montré qu'il est difficile de faire la distinction entre une collocation et une expression figée. Néanmoins, le problème est encore plus complexe quand il s'agit de différencier les collocations des combinaisons libres, car elles prennent parfois la même forme. Le syntagme to deliver a speech, par exemple, peut avoir deux sens. En combinaison libre, il veut dire prendre un discours et aller le porter à quelqu'un. Toutefois, ce même syntagme peut aussi vouloir dire prononcer un discours, lorsque nous avons affaire à une collocation. Liang (1991:153) suggère que ce sont des contraintes lexicales crées par l'usage qui opèrent sur les collocations(56) et qui les distinguent des combinaisons libres. Même s'il est possible de remplacer un mot par un autre à l'intérieur d'une collocation, les possibilités ne sont pas illimitées, comme c'est le cas dans les combinaisons libres(57). Ainsi, les combinaisons qui sont des collocations auront plus tendance que les combinaisons libres à se retrouver dans un corpus, ce qui expliquerait pourquoi la notion de fréquence est si importante dans le repérage automatique des collocations.

Le composé et la collocation adoptent souvent la même forme sur le plan grammatical (NomC de NomC, NomC à NomC, NomC AdjQ, AdjQ NomC et NomC à Verbe, par exemple). Si pareilles combinaisons se repèrent facilement dans un texte étiqueté, il est ensuite très difficile de différencier la collocation du composé. Pour y arriver, de nombreux terminologues utilisent comme critère principal le fait que, contrairement à la collocation, le composé forme un tout sémantique ayant sa propre définition et ses propres caractéristiques. D'autres, comme Roberts (1994/1995), préfèrent différencier les collocations des composés en se servant de la catégorie grammaticale. Ainsi, si la combinaison de mots à l'étude fonctionne comme un substantif, on a affaire à un composé. Si chaque mot de la combinaison conserve plutôt sa propre catégorie grammaticale, cette combinaison est une collocation. Que l'on utilise une façon ou l'autre de séparer les collocations des combinaisons, il n'en reste pas moins que, pour l'instant, la tâche est très difficile.

3.1.4 Importance des collocations dans les dictionnaires bilingues

Étant donné la nature complexe des collocations, on s'attendrait à ce qu'il existe de nombreux dictionnaires de collocations. Néanmoins, pour la paire de langues qui nous intéresse, soit l'anglais et le français, un seul dictionnaire par langue n'a été publié, soit le BBI (Benson et al. 1986) en anglais et le Lacroix (1956) en français (bien que ce dernier soit très vieux). C'est pouquoi Geoff Barnbrook (1996:135) suggère qu'une entrée de dictionnaire devrait contenir, en plus d'une définition, des renseignements sur l'environnement habituel de ce mot, surtout lorsque cet environnement est particulier ou non prévisible. Cette recommandation s'applique davantage encore au dictionnaire général bilingue, car les locuteurs ont encore plus de difficultés à maîtriser les collocations d'une langue seconde.

On consulte généralement un dictionnaire bilingue pour deux raisons : pour décoder un texte en langue de départ ou pour en produire un en langue d'arrivée. Placé devant une collocation inconnue, un locuteur natif, une personne bilingue et même un apprenant arrivent généralement assez facilement à comprendre son sens, car ses composants conservent leur sens individuel. Mais il existe des collocations du type to curry favour, celles que Cowie appelle restricted collocations, qui s'appréhendent plus difficilement, même par les locuteurs natifs. Pour en connaître le sens, on peut toujours chercher cette collocation dans un dictionnaire unilingue anglais, mais il est parfois plus utile, surtout pour un apprenant, d'en connaître l'équivalent dans sa langue maternelle(58). Cependant, à l'exception d'un nombre limité de collocations, celles-ci sont transparentes, même pour les apprenants.

En revanche, les collocations posent problème dans l'encodage des textes, surtout pour un apprenant, car il ne peut savoir à l'avance quelles combinaisons contenant un mot donné sont acceptables et lesquelles sont à proscrire. En anglais, par exemple, les adjectifs strong et powerful sont des quasi-synonymes; cependant, le locuteur anglais ne dira jamais spontanément powerful tea. Powerful tea serait certes compris par tout locuteur anglais, mais cette combinaison serait perçue comme n'étant pas idiomatique. D'où l'importance de la place que les collocations doivent tenir dans tout dictionnaire, surtout un dictionnaire bilingue. Par exemple(59), pour rendre en anglais l'idée qu'un orage a éclaté, un locuteur anglais ne dirait jamais the storm has exploded comme le voudrait la traduction littérale. Mais à l'entrée éclater(60) du Robert-Collins Senior, on trouve, pour la collocation orage+éclater, la collocation équivalente en anglais, storm +to break(61).

Pour les raisons évoquées ci-dessus, et bien d'autres encore, il est important d'inclure, dans un dictionnaire bilingue, autant de collocations que possible. Cependant, la tâche du lexicographe bilingue est suffisamment ardue sans lui imposer le devoir supplémentaire de repérer, à partir d'un corpus, des collocations d'un mot-vedette et de ses équivalents. C'est pour simplifier quelque peu son travail que nous avons pensé à produire un outil qui permettrait d'extraire semi-automatiquement des collocations et leurs traductions.

3.2 Description de Xtract

Il existe plusieurs logiciels du type analyseur de textes qui permettent, jusqu'à un certain point, de repérer des collocations dans un corpus unilingue(62). Mais peu de logiciels sont conçus particulièrement pour ce but. Le plus élaboré à l'heure actuelle est sans doute Xtract, qui fera l'objet de la présente section. Ce logiciel, conçu par Frank Smadja (1993), permet de repérer des collocations de longueur variable, que les mots soient contigus ou non(63). Il faut noter que Smadja définit le terme collocation de façon assez vague. En effet, pour lui, la collocation comprend tout ce que son logiciel récupère, soit des collocations telles que définies à la section 3.1, soit des phrases du type The Dow Jones industrial rose xxx points (que Smadja appelle des phrasal templates) ainsi que des composés comme The Dow Jones industrial (des rigid noun phrases pour Smadja).

Xtract fonctionne en trois étapes. Il repère d'abord, à partir d'un corpus étiqueté avec les catégories grammaticales, les paires de mots (bigrammes) statistiquement significatives(64). Les composants de ces paires peuvent être séparés l'un de l'autre par un maximum de 4 mots. À la prochaine étape, Xtract extrait, à partir des bigrammes déjà trouvés, des unités significatives plus longues (n-grammes), ce qu'il appelle phrasal templates ou les rigid noun phrases. En dernier lieu, il élimine des bigrammes trouvés à la première étape toutes les combinaisons dans lesquelles les composants ne conservent pas toujours la même relation syntaxique. Supposons, par exemple, que Xtract ait repéré le couple price + rose. Les relations syntaxiques qui peuvent exister entre ces mots pourraient être : sujet + verbe (the prices rose...), verbe + complément (to price a rose), ou encore substantif + complément (the price of a rose). Ainsi, la combinaison price + rose, si elle avait été trouvée, aurait pu être éliminée à cette étape-ci(65).

Seule la première étape, soit l'extraction de bigrammes, sera à l'étude ici(66) parce que c'est surtout en bigrammes que se manifestent les collocations et que ce seront uniquement les bigrammes qui seront traités dans le cadre de cette thèse.

Extraction des bigrammes

L'extraction des bigrammes par Xtract se fait en trois sous-étapes qui seront résumées ici. Xtract segmente d'abord le texte en phrases en se servant de la ponctuation marquant la fin des phrases(67). Seules les phrases qui contiennent le mot w demandé sont retenues (tableau 28).

Étape 1.1 -- Production de concordances(68)
Entrée :
Un corpus étiqueté et un mot w au choix de l'usager.
Sortie :
Toutes les phrases contenant le mot w
Tableau 28 -- Xtract : étape 1.1 -- production de concordances

Xtract dresse ensuite une liste de tous les collocatifs wi du mot w et, pour chaque wi, tient compte de sa position par rapport à w, de sa catégorie grammaticale et ainsi que de sa fréquence. À ce stade-ci, les mots vides ou grammaticaux et les mots séparés de w par plus de cinq mots sont éliminés (tableau 29).

Étape 1.2 - Compilation et tri(69)
Entrée :
La sortie de l'étape 1.1, soit des phrases contenant le mot w.
La liste des collocatifs wi et de leur fréquence avec le mot w.
Tableau 29 -- Xtract : étape 1.2 -- compilation et tri

Le tableau 30 montre les résultats de l'analyse d'une seule phrase, présentés dans l'article de Smadja (1993:152).

Collocatifs de takeover dans la phrase
The pill would make a takeover attempt more expensive
by allowing the retailer's shareholders to...
wwiDistance(70)Catégorie
grammaticale
takeover pill -4 N
takeover make -2 V
takeover attempt +1 N
takeover expensive +3 Adj
takeover allowing +5 V
Tableau 30 -- Xtract : collocatifs de takeover

Dans cette phrase, par exemple, les wi significatifs sont pill (distance +4), make (distance +2), attempt (distance -1), expensive (distance -3) et allowing (distance -5). Xtract analyse de cette façon toutes les phrases contenant le mot takeover.

Ensuite, Xtract estime pour chaque mot w la fréquence moyenne de tous ses collocatifs wi ainsi que l'écart type pour ces fréquences. Puis, il calcule la force du lien (ki) pour chaque paire w-wi en soustrayant la fréquence moyenne de la fréquence à une distance donnée et en divisant ensuite par l'écart-type(71) (tableau 31).

Étape 1.3 - Analyse(72)
Entrée :
La sortie de l'étape 1.2, soit la liste des wi avec, pour chacun, sa fréquence en fonction de sa position relativement à w.
Sortie:
Des paires de mots significatives ainsi que des renseignements sur leur fréquence et leur position relative par rapport au mot demandé.
Tableau 31 -- Xtract : étape 1.3 -- analyse

Le tableau 32 présente les résultats calculés par Xtract pour le mot takeover en combinaison avec un adjectif.

Sortie de l'étape 1.3 - Combinaisons takeover+adjectif (extrait)
w wi Fréq p-5 p-4 p-3 p-2 p-1 p1 p2 p3 p4 p5
takeover

takeover

takeover

takeover

takeover

possible

corporate

unsolicited

several

recent

178

93

83

81

76

0

2

5

2

5

13

2

30

6

4

4

2

5

6

6

23

1

0

6

5

138

63

42

45

17

0

3

0

0

0

0

2

0

0

0

0

9

1

12

36

0

4

0

0

2

0

5

0

4

1

Tableau 32 -- Xtract : combinaisons takeover + adjectif

La prochaine phase consiste à évaluer la distribution moyenne (pi) de wi autour de w pour calculer la variance Ui(73)

autour de pi (échelle de 1 à 100). Plus Ui est petit, plus l'histogramme représentant la distribution du mot wi relativement à w est plat, et donc moins la position de wi autour de w est fixe. À l'inverse, plus Ui est grand, plus wi a des chances de se retrouver dans un ou plusieurs endroits précis autour de w et donc de former des collocations significatives(74).

Voici deux histogrammes fictifs (tableau 33) montrant la distribution d'un mot wi autour d'un mot w. Le premier histogramme est pratiquement plat et n'est que de peu d'intérêt sur le plan collocationnel. Le second, cependant, comporte deux colonnes qui se démarquent clairement des autres, soit celle à la position p-3 (p étant la position de w) et p-2. Ce deuxième histogramme représente assurément une collocation puisque wi n'apparaît que dans certaines positions fixes par rapport à w.

-

-5 -4 -3 -2 -1 +1 +2 +3 +4 +5

-5 -4 -3 -2 -1 +1 +2 +3 +4 +5

Tableau 33 -- Xtract : histogramme -- distribution d'un mot autour d'un autre

Xtract calcule, pour les positions allant de -5 à +5 autour du mot-vedette, la différence entre le nombre d'occurrences du collocatif pour cette position et la distribution moyenne du collocatif et met cette différence au carré pour neutraliser les résultats négatifs (pij - pi)2. Le logiciel calcule la moyenne des 10 positions autour du mot-vedette et utilise ensuite ces statistiques pour éliminer certaines paires de mots qui seraient moins significatives. L'utilisateur peut préciser le seuil minimum pour la force du lien ko, et seules les paires qui ont une valeur supérieure à ce seuil sont retenues.

La possibilité qu'une paire w+wi forme une collocation significative augmente avec la valeur de Ui. Ainsi, on précise une valeur limite en-deça de laquelle les paires sont rejetées. Ce filtre assure qu'un sommet au moins apparaît dans l'histogramme, ce que Smadja appelle pattern of coappearance, c'est-à-dire une ou des positions autour de w privilégiée par wi.

Finalement, Xtract récupère les pointes de l'histogramme dont la valeur k est supérieure à une valeur k1 pré-déterminée.

Pour Smadja, dès lors, la relation lexicale s'exprime en tuple, soit (wi, distance, force, distribution,wj). Voici un exemple de résultats fournis par Xtract à la sortie de cette étape-ci (tableau 34).

Sortie -- takeover
wi wj Distance (d) Force (k) Distribution (U)
hostile

hostile

corporate

possible

hostile

takeovers

takeover

takeovers

takeover

takeovers

1

1

1

1

2

13

13

8

6

2

96

90

90

73

70

Tableau 34 -- Xtract : sortie -- takeover

Il s'agit bel et bien de collocations extraites automatiquement d'un corpus monolingue.

3.3 Description de Champollion

Après avoir créé le logiciel Xtract, Smadja (1996) a mis au point (en collaboration avec Kathleen McKeown et Vasileios Hatzivassiloglou), un autre programme, Champollion, qui permet d'extraire automatiquement la traduction d'une collocation donnée en entrée. Plus précisément, l'utilisateur donne un mot ou une collocation en entrée, et Champollion trouve le mot ou la combinaison de mots qui est le plus susceptible d'en être la traduction(75).

Balayant un bitexte apparié au niveau des phrases(76), Champollion, tout comme Xtract d'ailleurs, se sert exclusivement de statistiques pour repérer la traduction d'une collocation. Bien que les auteurs n'aient utilisé en entrée que des collocations produites par Xtract, Champollion peut en fait traiter n'importe quelle collocation, qu'elle ait été repérée par Xtract ou pas.

Ce qui suit est une description très sommaire de l'algorithme en question. Nous utiliserons la collocation(77) official languages (Smadja et al. 1996:17) pour illustrer le fonctionnement de Champollion.

Dans un premier temps, Champollion prend en entrée une collocation anglaise et repère, dans la partie française du bitexte, tous les mots qui lui sont fortement associés. De ces mots, il ne conserve que ceux dont la valeur du coefficient de Dice (CD), est au-dessus du seuil précisé par l'utilisateur dans les paramètres initiaux. Cette liste de mots sera désignée liste A dans le passage suivant.

Champollion suppose que la collocation équivalente à la collocation de départ sera nécessairement composée de mots qui figurent sur la liste A. C'est pourquoi il produit des paires de mots en combinant entre eux tous les mots de la liste A et calcule ensuite le CD pour chaque paire. Ici encore, le logiciel dresse la liste des paires les plus significatives(78) (liste B) et retient la paire dont le CD est le plus élevé.

Champollion répète cette dernière étape et passe des paires significatives aux triplets significatifs, puis des triplets significatifs aux groupements de quatre mots, et ainsi de suite, retenant chaque fois le groupement dont le CD est le plus élevé et faisant passer à la prochaine itération les groupements dont le CD dépassait le seuil établi. Champollion n'arrête que lorsqu'il ne trouve plus de combinaisons dont le CD dépasse le seuil.

Revenons à l'exemple de Smadja, official languages, Champollion a d'abord repéré ces mots dans le texte source et n'a conservé que les phrases dans lesquelles ces mots apparaissaient ensemble. Les mots official et languages sont revenus dans le corpus 492 et 266 fois respectivement, dont 167 fois dans la même phrase. Champollion a calculé le CD pour chaque mot compris dans les phrases françaises qui avaient été alignées avec ces phrases anglaises. Onze mots seulement avaient un CD supérieur au seuil établi (liste A). Les auteurs ne précisent pas quels mots figurent sur cette liste, hormis officielles, car le CD de ce mot était le plus élevé de la liste A. Ce mot, ainsi que tous les mots composant la liste A, ont été traités à l'étape suivante. Champollion avait constitué des paires de mots en combinant ensemble les onze mots formant la liste A. Des 35 paires dont le CD dépassait le seuil (liste B), la paire officielles langues avait la valeur la plus élevée. Cette paire a donc été retenue, et toutes les paires figurant sur la liste B ont été traitées de la même façon pour obtenir des triplets. Le triplet le plus significatif a été retenu, et tous les triplets ont été traités de la même façon. Champollion a répété cette étape jusqu'à ce qu'aucune combinaison de mots (qui apparaissaient à l'origine sur la liste A) n'ait un CD supérieur au seuil établi. Le tableau 35 montre la combinaison qui a été retenue à chaque itération.

Traductions possibles
Combinaisons CD Nombre de combinaisons
officielles 0,91 11
officielles langues 0,95 35
honneur officielles langues 0,45 61
déposer honneur officielles langues 0,36 71
déposer pétitions honneur officielles langues 0,34 56
déposer lewis pétitions honneur officielles langues 0,32 28
doug déposer lewis pétitions honneur officielles langues 0,32 8
suivantes doug déposer lewis pétitions honneur officielles langues 0,20 1

Tableau 35 -- Champollion : résultats

Champollion choisit maintenant la combinaison dont le CD est le plus haut, ici officielles langues, vérifie dans le corpus de quelle façon cette combinaison significative se présente afin de rétablir l'ordre habituel, si nécessaire. Fait à noter, Champollion fera la distinction entre une combinaison flexible, si l'ordre des mots qui la composent est variable, et rigide lorsque l'ordre est fixe.

Cette approche, aussi élaborée soit-elle, pose certains problèmes dès le départ. Pour les auteurs, une collocation est non ambiguë en langue source et possède une traduction unique en L2,  in a clear majority of cases  (Smadja et al. 1996:7).

Toutefois, tous ceux qui se sont le moindrement attardés aux collocations savent que ni l'une ni l'autre de ces prémisses n'est vraie. Par exemple, la collocation to receive a citation a deux sens tout à fait différents en anglais selon le sens du mot citation comme tel. En effet, elle peut vouloir dire que la personne a reçu une mention honorable ou encore un ordre pour apparaître en cour.

Quant à la traduction unique d'une collocation, rien n'est plus loin de la vérité. Par exemple, la collocation anglaise to take action peut être traduite tour à tour par agir, passer à l'action, et prendre des mesures, pour ne citer que trois synonymes. Et puisque Champollion ne propose que la combinaison dont le CD est le plus élevé, un seul de ces équivalents sera retenu.

De plus, même si le bitexte utilisé est anglais-français, les auteurs n'ont utilisé leur modèle que sur des collocations anglaises. Il serait intéressant de savoir dans quelle mesure le modèle est réversible.