Résumé de thèse (Maria Zimina-Poirot, 2004)

Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèles

La croissance spectaculaire des données textuelles multilingues rend toujours plus actuelle la nécessité de disposer d'outils de traitement automatique de corpus dans des langues différentes. Ce travail présente les résultats d'une série de recherches consacrées au développement d'une nouvelle famille d'outils d'exploration textométrique intertextuelle. De nombreuses méthodes de statistique textuelle ont été articulées et adaptées au cadre multilingue : la méthode des segments répétés, les spécificités, la topographie bi-textuelle, les cooccurrences multiples, l'analyse factorielle des correspondances, la classification automatique, etc. L'utilisation de chaque méthode dans le contexte multilingue est illustrée par des exemples d'applications, accompagnés d'échantillons de ressources traductionnelles obtenues à partir du corpus parallèle français/anglais de la Convention de sauvegarde des Droits de l'Homme.

Le travail comporte deux grandes parties. La première décrit les enjeux de l'analyse automatique de corpus multilingues ainsi que les acquis obtenus par les principaux courants de recherche du domaine du traitement automatique des langues (chapitre 1-2).

Le chapitre 1 tente de cerner le concept de parallélisme textuel dans le contexte multilingue. Le lecteur y trouvera des exemples de corpus parallèles composés de textes sources et de leurs traductions (effectuées par des traducteurs humains) ou de textes dont chacun est une traduction de l'autre sans qu'il soit possible de déterminer lequel a servi de source.

Dans la première partie du chapitre 2, sont recensés les problèmes nés dans le contexte de la segmentation de corpus parallèles en équivalences traductionnelles. Des exemples montrent la difficulté de déterminer des mécanismes formels permettant d'automatiser cette segmentation au niveau lexical. La deuxième partie décrit les principales méthodes d'alignement automatique de corpus. On y trouvera la description et la comparaison de quelques grandes familles d'algorithmes d'alignement automatique développés au cours des vingt dernières années.

La deuxième partie (chapitres 3-7) présente les fondements de l'analyse textométrique des corpus multilingues et décrit les applications textométriques mises au point pour l'extraction de ressources traductionnelles à partir de corpus parallèles.

Développées dans le contexte monolingue, les pratiques de l'analyse textométrique de corpus se révèlent particulièrement adaptées à la recherche automatique des équivalences du bi-texte. Dans le cas des corpus parallèles bilingues, la textométrie aide à mettre en relation différents types d'unités textuelles entre les deux volets. L'approche quantitative permet d'établir des correspondances aussi bien entre les paragraphes et les phrases, qu'au niveau lexical. Grâce à cette approche, on parvient à mettre en relation des formes graphiques isolées, des lexèmes, des structures lexicales récurrentes sur l'axe syntagmatique, etc.

Les méthodes quantitatives convoquées dans ce travail reposent entièrement sur des ressources construites automatiquement à base de corpus. Ces méthodes s'appuient sur des algorithmes qui utilisent les fréquences et les distributions des unités textuelles prises comme points de repère pour l'identification et l'extraction des correspondances.

La comparaison des fréquences des unités textuelles recensées dans les deux volets bilingues du corpus est souvent insuffisante pour détecter les correspondances traductionnelles au niveau lexical. Les différents sens dans lesquels un lexème est employé dans un contexte donné induisent la plupart du temps autant de traductions différentes. Les mots dotés d'un large éventail de sens dans le corpus forment des réseaux de correspondances souvent complexes. Ces facteurs entraînent des écarts entre les fréquences des unités équivalentes prises dans des contextes particuliers.

La notion de résonance textuelle est alors mobilisée pour mieux cerner les rapports de correspondances entre les lexèmes en fonction des variations contextuelles. Le processus de résonance textuelle amorcé par la sélection dans le texte source des sections dans lesquelles les occurrences d'une unité textuelle (forme, segment répété, patron morpho-syntaxique) dépassent un seuil fixé, induit une sélection topographique correspondante dans le texte cible et met en évidence des séquences, liées à l'unité de départ, sur le plan de la traduction. Le processus de résonance textuelle peut être enclenché par localisation topographique de fragments thématiques du bi-texte. Cette exploration topographique s'enrichit des résultats de l'alignement des deux volets bilingues du corpus au niveau de la phrase. Une description automatique des relations d'équivalence multiples entre unités bilingues peut être obtenue par le biais d'appariements statistiques lorsque l'exploration du corpus s'appuie sur un alignement des phrases. Cette approche peut être utilisée pour le repérage des équivalences lexicales y compris dans le cas où leurs fréquences dans le corpus sont peu élevées. L'exploration topographique de ressources traductionnelles peut être complétée par des approches cooccurrentielles et, notamment, par le calcul des réseaux de cooccurrences parallèles (chapitre 6). Les possibilités de navigation intertextuelle ouvertes par cette approche facilitent la mise en évidence de phénomènes traductionnels complexes, relevant de différents niveaux de l'analyse linguistique : la variation des traductions d'un terme en fonction des contextes, le repérage thématique d'équivalences lexicales, la découverte de constellations lexicales parallèles, etc. L'observation de ces phénomènes est susceptible d'enrichir la pratique quotidienne des traducteurs, lexicographes, terminologues, enseignants en langues étrangères, spécialistes de l'analyse de discours, etc.

Le dernier chapitre aborde des perspectives de recherche peu explorées jusqu'ici et, en premier lieu, les perspectives d'analyse textométrique de corpus parallèles catégorisés (chapitre 7). L'étiquetage de corpus parallèles offre des points d'appui précieux pour l'extraction de ressources traductionnelles du bi-texte. Cependant, une homogénéisation des jeux d'étiquettes morphosyntaxiques utilisés pour la catégorisation de deux volets bilingues d'un corpus parallèle se révèle nécessaire avant l'exploration bi-textuelle.

L'éclairage quantitatif permet de construire des analyses nuancées de ressources textuelles multilingues. Le succès pratique des méthodes d'exploration élaborées au fil de ces recherches, nous a incitée à produire des maquettes de logiciels d'exploration textométrique intertextuelle. Ces maquettes sont fournies sur le Cd-rom qui accompagne ce travail.