ITS - 3

Traduction en ligne allemand - français

Le projet ITS-3 est né des recherches en traduction automatique effectuées dans le Laboratoire d'Analyse et de Technologie du Langage de l'Université de Genève. Ces recherches ont donné lieu à un système de traduction (ITS-2) pour la paire de langues français-anglais basé sur une architecture classique à trois composantes : analyse - transfert - génération. Le transfert procède d'abord à un niveau lexical et ensuite à un niveau syntaxique.

Le projet ITS-3 vise à concevoir un système de traduction qui limite nettement les procédures de transfert, que l'on sait inadéquates et inefficaces à grande échelle en traduction automatique, pour ne considérer que les correspondances lexicales bilingues entres catégories ouvertes, à savoir V(erbe), N(om), (A)djectif/dverbe. Les autres catégories, comme P(réposition), (C)onjonction, sont des classes fermées, pour lesquelles un niveau d'abstraction dans les correspondances bilingues peut être envisagé.

L'analyse de l'allemand s'effectuera à l'aide de l'analyseur DIPS, déja en partie développé dans le cadre du projet de recherche sur l'analyseur générique IPS. Quant à la génération, elle se fera au moyen du générateur du français, GBGEN, récemment développé au LATL. GBGEN est un système qui produit des phrases du français sur la base de structures pseudo-sémantiques abstraites. La référence lexicale directe se limite aux catégories ouvertes sus-mentionnées. Pour les spécifications de mode, de temps, de circonstances, etc., des valeurs sont spécifiées dans les structures pseudo-sémantiques, qui seront réalisées sur un plan lexico-syntaxique selon des régles propres à la langue considérée, en l'occurrence le français. Dans le cadre du projet ITS-3, il est envisagé de faire appel aux structures pseudo-sémantiques de GBGEN.

1. La problématique

1.1 L'aspect linguistique

Faire de la traduction automatique entre le français, une langue romane, et l'allemand, une langue germanique, est un véritable défi aux vues des différences typologiques existant entre les deux langues. Les plus notables sont:

  1. l'ordre de base des mots;
  2. l'ordre des constituants en milieu de phrase et
  3. la composition du domaine initial de la phrase.

En ce qui concerne (i), le français présente un ordre de base Sujet < Verbe < Objet (`Jean a lu un livre'), alors que l'allemand offre l'ordre de base Sujet < Objet < Verbe (`Johann hat ein Buch gelesen'). En ce qui concerne (ii), l'allemand permet un ordre relativement libre entre les constituants internes de la phrase

alors que le français exige un ordre plus strict entre constituants

En ce qui concerne (iii), l'allemand présente une contrainte sur le début de phrase selon laquelle le verbe conjugué doit occuper la deuxième position dans les phrases principales ou phrases sans conjonction (`Johann hat dieses Buch gestern gelesen' vs *`Gestern Johann hat dieses Buch gelesen'). Cette contrainte, nommée V2, ne s'applique pas au français : `Hier Jean a lu ce livre'.

Outre ces différences configurationnelles, il y a un bon nombre de propriétés lexicales et morphologiques qui différent, notamment les marques de Cas, les verbes à particule, les noms/mots composés complexes en allemand.

1.2 L'aspect informatique : implémentation de la grammaire

L'analyseur DIPS est une version adaptée à l'allemand de l'analyseur générique IPS. Il partage avec celui-ci un certain nombre de modules d'analyse. D'autres processus sont spécifiques à DIPS. Tant les procédures que la stratégie d'analyse sont reprises d'IPS (pour le français, l'anglais et l'italien). Grossièrement, on projette des constituants à partir du lexique, on attache les constituants les uns aux autres, à gauche et à droite, selon des propriétés de sous-catégorisation et de sélection, de prédication, de modification, puis on identifie les transformations (p.ex. sous forme de chaînes) et enfin on applique des filtres. Ce type de dérivation linguistique est caractéristique de la Grammaire Générative Transformationnelle.

Les particularités linguistiques de l'allemand nous forcent à adopter des critères d'attachement plus spécifiques, à pratiquer des contraintes particulières (V2, ordre des constituants) et surtout à établir une procédure d'interprétation anticipée, lorsque le verbe est final (la lecture de la phrase se fait de gauche à droite). Dans son état actuel, DIPS peut traiter un bon nombre de phénomènes en s'appuyant sur un lexique de bonne taille.

Toutefois, la robustesse du système est mise à défaut face à des textes bruts, dans lesquels on rencontre des faits linguistiques appartenant aux micro-grammaire d'une langue, par exemple les expressions idomatiques, numériques, temporelles, elliptiques, parenthétiques, etc. Il est clair que si l'on veut faire de la traduction, sinon fiable, au moins intensive, on doit tenir compte de ces phénomènes de la langue. Notons aussi qu'un traitement des mots inconnus (mots n'existant pas dans le lexique), simple ou composé, est nécessaire à la robustesse de tout système de traitement du langage naturel.

1.3 Le besoin d'analyses linguistiques fines en TALN

Le projet ITS-3 allemand->français met l'accent sur deux aspects en analyse automatique du langage naturel:

  1. le besoin de systèmes d'analyses robustes et
  2. le besoin d'analyses en profondeur (par opposition au `shallow parsing').

Le premier point est une nécessité absolue pour produire un système de traduction robuste, utilisable en ligne. Tout échec absolu de traitement, sans résultat aucun, est très mal perçu par les utilisateurs. Le deuxième point prend toute son importance dans un sytème de traitement linguistique qui lie deux langues typologiquement aussi distinctes que le français et l'allemand. Selon nous, les différences configurationnelles entre les deux langues ne peuvent être captées, et donc mises en relation (pour la traduction), qu'au prix d'un effort d'analyses syntaxiques riches et détaillées.

C'est dans ce cadre-là que le programme ITS-3 allemand->français ira extraire les informations pertinentes des structures de surface de l'allemand pour produire des structures pseudo-sémantiques (structures d'interface) suffisamment abstraites pour que le transfert lexical entre la langue source et la langue cible soit réduit au minimum. La difficulté de la tâche réside dans l'établissement de procédures générales pour l'extraction de données syntaxiques d'une langue source et leur conversion en valeurs dans des structures d'interface plus ou moins abstraites, à partir desquelles se fera la génération des expressions linguistiques de la langue cible. La limitation du transfert lexical permettra d'avoir des correspondances non lexicalisées pour des valeurs linguistiques propres à une langue, donc pouvant varier d'une langue à l'autre, telles que les valeurs lexico-syntaxiques de temps, de mode, de quantification, de modification, etc.

1.4 Le modèle de traduction

L'architecture du système ITS-3 allemandfrançais se présente comme suit:

Expressions allemandes analyses lexicales et syntaxiques structures de surface
Extraction d'informations structurales et syntaxiques convertibles en valeurs pseudo-sémantiques
structures pseudo-sémantiques
Mise en correspondance des valeurs de l'allemand avec celles du français
Expressions françaises transformations structures profondes projection

Partant de l'allemand comme langue source, l'analyse DIPS produira des structures syntagmatiques de surface, enrichies d'informations de toutes sortes. Ensuite, on appliquera des procédures qui vont extraire les informations pertitentes de ces structures de surface pour produire une ou plusieurs structures pseudo-sémantiques, à partir desquelles on pratique un transfert lexical vers le français pour les catégories ouvertes. Pour ce qui est des valeurs abstraites (en traits) relatives aux autres spécifications de la structure pseudo-sémantique (temps, mode, type de phrase, voix, modification, etc.), on fera appel à des procédures de réalisations linguistiques propres au français. Il est clair qu'à ce stade, certains ajustements seront nécessaires (p.ex. pour certaines correspondances structurales telles dans la focalisation, la topicalisation, la modification, etc.). Finalement, le générateur GBGEN achèvera le travail en produisant les expressions françaises correspondantes en projetant une structure profonde, sur laquelle s'appliquent des transformations et, pour finir, des ajustements morphologiques.

Le modèle de traduction présenté ci-dessus se situe donc à mi-chemin entre le transfert lexico-structural et l'interlangue (langage-pivot entre la langue source et la langue cible). On sait depuis longtemps que les modèles de traduction basés sur le transfert lexical direct donnent des résultats médiocres, souvent catastrophiques (traduction mot-à-mot). Il convient en fait d'aller plus en profondeur dans les correspondances entre langues, c'est-à-dire aux niveaux des structures, des configurations et des dépendances (syntagmatiques, fonctionnelles, sémantiques). Toutefois, ce modèle à transfert lexico-structural trouve ses limites face aux données (extra-)linguistiques liées au contexte, à la référence, au type d'énoncé. En effet, les correspondances linguistiques entre deux langues, même typologiquement apparentées, ne sont pas systématiques, en tout cas pour ce qui est des valeurs de temps (simple ou concordé), de mode, de quantification, d'aspect, et ainsi de suite. Le passage d'une langue à l'autre ne peut pas être direct, donc ne peut et ne doit pas passer par le mécanisme unique du transfert. Une base de données abstraites (non lexicalement préconçue) est nécessaire à ce niveau. C'est l'interlangue, qui dans le cas de ITS-3, prend la forme de structures pseudo-sémantiques (avec une sémantique simple, adaptée au traitement linguistique par ordinateur). Signalons toutefois qu'un modèle ne faisant pas du tout appel au transfert lexical (un système idéal reposant sur la caractérisation des unités lexicales sous forme de matrices de traits abstraits) deviendrait bien trop complexe pour pouvoir être géré efficacement par un ordinateur. La solution la plus raisonnable à l'heure actuelle est l'approche mixte entre transfert lexical et structures abstraites d'interface (intelangue).

Les échecs successifs en traduction automatique nous ont appris à mieux cerner les problèmes rencontrés, non seulement dans la conception même du modèle (transfert, interlangue), mais aussi dans les objectifs visés et dans les applications possibles. On sait qu'une traduction automatique fiable et fine pour un texte un peu compliqué (journalistique, par exemple) ne peut pas être garantie sans l'aide de l'homme. C'est la traduction interactive, qui invite l'utilisateur à faire des choix d'interprétation, guidant ainsi la traduction. Il y aussi les sytèmes d'aide à la traduction, qui ne sont que des outils pour des utilisateurs qui font eux-mêmes une grande part du travail de traduction.

Plus récemment, le domaine de la traduction automatique s'est tourné vers deux objectifs communs:

  1. traduire dans les limites d'un micro-monde linguistique (tourisme, finances, affaires)
  2. traduire dans le cadre d'autres applications en TALN (par exemple traduction de parole à parole).

Les résulats dans ce contexte-là risquent d'être bien meilleurs, et peut-être même satisfaisants. Ce n'est qu'en rendant les systèmes de traduction plus modestes et leurs applications moins ambitieuses que la survie de la traduction automatique en tant que discipline reconnue peut être assurée.

2. Application multi-média : la traduction en ligne

Il existe de nombreux outils de traduction dans le commerce, dont la qualité est souvent insatisfaisante. Citons par exemple Web Translator de Globalink. Ces produits doivent être installés sur le PC de l'utilisateur. D'autres produits sont à disposition du public sur Internet, le réseau mondial de l'information et de la communication. Comme on le sait, des millards de documents de toutes sortes, non seulement en anglais (principale langue), mais dans un bon nombre d'autres langues dont le français, l'allemand, etc., sont diffusés à travers le monde par Internet. On voit bien dans ce contexte l'utilité des outils TALN, plus particulièrement d'un système de traduction.

La traduction en ligne existe déjà dans le réseau Internet (ou World Wide Web) sur de nombreux sites. Le plus connu et le plus efficace des systèmes est SYSTRAN, associé au moteur de recherche Alta Vista. Systran traduit soit une page web, soit du texte tapé par un utilisateur dans un formulaire. Systran offre une traduction de l'anglais vers l'italien, l'allemand, le français, l'espagnol et le portugais et inversément. La traduction est rapide, pour autant que le service ne soit pas surchargé. Les versions commerciales de Systran, à installer sur un PC, proposent davantage de couples de langue.

Le LATL s'est toujours engagé à mettre ses outils TALN à disposition des utilisateurs d'Internet. Ce sera naturellement le cas pour ITS-3, qui sera fortement orienté vers une utilisation sur le WEB (traduction en ligne). Nous pouvons souligner là l'originalité de développer un traducteur allemand-français, puisque aucun produit analogue n'existe à notre connaissance sur le réseau Internet.

L'utilisation d'ITS-3 en ligne est envisagée à diverses fins, faisant appel à des modes d'interface différents. Le programme de traduction sera disponible avec les fonctionnalités suivantes:

  1. Envoi à une adresse courriel du LATL d'un message électronique, qui sera automatiquement extrait, traduit et renvoyé à l'expéditeur.
  2. Traduction par une interface sur le Web, à l'aide d'un formulaire.
  3. Envoi au système de l'URL d'une page Web à traduire, et restitution de la page traduite avec conservation de la mise en forme.
  4. Traduction par un programme installé sur l'ordinateur de l'utilisateur et accessible directement à partir de son navigateur (plug-in).

Par la réalisation du programme ITS-3 allemand->français, nous espérons combler le manque d'outils TALN basés sur des analyses linguistiques fines et profondes, impliquant la paire de langues allemand-français. Nous visons aussi à répondre aux besoins des utilisateurs francophones d'Internet qui, ne maîtrisant pas la langue allemande, se sentiraient frustrés face à des documents rédigés dans cette langue.

dernière modification: juillet 1999, webmaster