L'Intelligence Artificielle est-elle douée pour les langues?

Babel 2.0 : où va la traduction automatique.

Pourquoi s'intéresser à la traduction automatique ? Parce qu'elle est partout, jusque dans votre poche, lovée dans le silicium de votre téléphone Android, Apple ou autre. Jusqu'aussi dans la notice d'utilisation de certains biens de consommation, qu'ils soient fabriqués en Asie ou ailleurs ; qui ne s'est jamais amusé de ces notices écrites dans un français dont l'incongruité trahit l'usage d'une traduction automatique. Ainsi cette erreur sur l'emballage alimentaire de saucisses polonaises ; l'anglais, polish sausage rendu par polissez la saucisse.

Thierry Poibeau qui dirige des recherches en traduction automatique nous fait avec son livre Babel 2.0, un état de l'art. Vous y apprendrez que l'idée de traduction automatique est née bien avant l'avènement de l'informatique, en des temps où des philosophes, tels Leibniz ou Descartes pouvaient rêver d'une langue universelle. Au vingtième siècle quand l'ordinateur et la puce en silicium n'existaient pas encore, des ingénieurs tentèrent d'élaborer des règles qui permettraient de mécaniser la traduction. On élabora d'abord des systèmes à bases de règles, liées aux propriétés grammaticales et lexicales des langues à traduire. On désespéra très vite des mauvaises performances, même avec la montée en puissance de l'électronique : dans les années 1980, la plupart des recherches sur le sujet étaient en train de perdre leurs financements.

Puis, avec la mise en réseau du monde, avec la sédimentation quotidienne d'énormes corpus de textes dans des mémoires de silicium, une approche statistique s'est révélée pleine de promesses (L'intelligence artificielle et le Big Data aidant).

Pour éveiller la curiosité de qui hésiterait encore à lire Thierry Poibeau, nous mettrons en exergue deux remarques. La première pointe l'idée qu'une machine ne traduit pas. Les opérations qu'elle exécute relèvent plus du décodage que de la traduction. En cela on peut la rapprocher de la cryptographie. Or il n'est pas inintéressant de savoir que les premières recherches en traduction automatisée, tout comme celles en cryptographies furent d'abord financées par la recherche militaire ; pendant la guerre froide traduire rapidement du russe vers l'anglais (ou vice versa) était un enjeu de sécurité national. Depuis les années 1990, les enjeux militaires sont toujours là (la langue Arabe a beaucoup gagné en importance stratégique) mais ces technologies sont devenues de puissants outils au services d'intérêt commerciaux : la cryptographie n'est plus un monopole d’État et la traduction automatique est un relais évident de l'économie mondialisée).

La seconde remarque porte sur la traduction littéraire. Les chercheurs en traduction automatique ne se font pas d'illusion ; le fruit de leur travail n'a pas vocation à traduire La Comédie humaine en Guarani ou Leaves of Grass en Japonais. Par contre, Thierry Poibeau vous montrera avec brio à quel point l'approche statistique de la traduction n'est pas sans rappeler comment les mots prennent un sens dans l'esprit. Car c'est une intuition que chacun d'entre nous peut concevoir ; nous n'avons jamais eu besoin d'un dictionnaire pour accéder au sens de la majorité des mots de notre vocabulaire. La notion que nous pouvons avoir d'un mot n'est pas sans rapport avec la fréquence à laquelle il est utilisé dans notre entourage. Cela ne fait pas d'un machine un esprit en puissance mais cela interroge.

deux citations:

page 197

Tout acteur du domaine [de la traduction automatisée] le dira : un système de traduction automatique ne "comprend" pas le texte à traduire, il ne fait que retrouver des équivalents traductionnels à partir de grandes masses de données textuelles, sur une base essentiellement statistique, et le plus souvent sans tenir compte des liens logiques entre phrases. Il n'y a pas de représentation formelle du contenu sémantique du texte à traduire, pas d'inférence et encore moins de raisonnement.

page 150-151

(...) comment déterminer les différents sens d'un mot juste en observant son usage dans un très grand corpus? Comment repérer des régularités d'usage? C'est la tâche du lexicologue (chargé de concevoir les dictionnaires), qui manipule généralement une multitude d'outils et de critères pour essayer de définir un découpage en sens qui soit complet et cohérent. Les statistiques permettent de le faire automatiquement, sur une base sans doute très différente de celle du lexicographe, mais pour un résultat souvent très pertinent et intéressant.
Les différentes techniques statistiques employées pour aligner les mots et les syntagmes reviennent à calculer des liens de proximité entre mots. Définir des équivalents dans une langue étrangère au niveau des morts ou d'expressions plus complexes composées de plusieurs mots, c'est déjà faire de la sémantique.
En effet, grâce à l'alignement lexical, plus un mot est ambigu, plus il sera mis en correspondance avec des mots variés dans la langue cible. Plus une expression est figée (comme "pomme de terre", syntagme qui ne peut gère varier, ainsi on ne trouve pas "pomme vraiment de terre" ou une "pomme de sol"), plus elle sera reconnue en tant que telle par les algorithmes d'alignement et souvent mise en rapport avec un mot simple dans la langue cible ("potatoe" par exemple si on est dans un cadre d'alignement français-anglais). L'analyse statistique aboutit donc à une modélisation directe de ces phénomènes de polysémie et de figement, sans théorie linguistique particulière.
On peut admettre que le type de représentation obtenue par analyse statistique est plus adéquat que celle fournie par bien des approches formelles ou théoriques particulières: les notions de sens, de frontière de sens et de figement sont étroitement liées à l'usage et ne sont pas des notions absolues. Ainsi, l'analyse statistique permet de définir différentes granularités de sens (c'est-à-dire définir un nombre plus ou moins grand de sens pour un mot donné, suivant la finesse de l'analyse désirée), ce qui semble bien correspondre à la réalité linguistique, plus que le découpage fixe offert par les dictionnaires courants en tout cas. En effet, pour un mot donné, on sait que le nombre de sens varie d'une dictionnaire à l'autre et que le découpage en sens n'est pas le même (c'est-à-dire que, même à nombre de sens équivalents, les définitions ne sont pas toujours les mêmes). Les statistiques rendent compte de façon simple et subtile de ces phénomènes complexes. Il s'agit là de questions au cœur de la sémantique.
Les résultats des systèmes automatiques (de traduction mais plus généralement de traitement automatique des langues) mériteraient d'être étudiés à cette aune. Il ne s'agit évidemment pas de dire qu'ils renferment en eux-mêmes une théorie de la sémantique*, mais ils permettent une représentation pertinente de certains phénomènes sémantiques. Un problème majeur vient de l'opacité des réseaux de neurones (leur aspect "boite noire") : il serait souhaitable de pouvoir les interpréter, afin de mieux comprendre comment fonctionne l'analyse au sein de leurs "couches cachées", qui, de ce point de vue, portent bien leur nom! Il y a là en tout cas un terrain riche à explorer, à l'interface entre traitement automatique et linguistique.

Sécurité. Pour accéder au portail de votre bibliothèque, merci de confirmer que vous n'êtes pas un robot en cliquant ici.