Approches quantitatives de l'extraction de ressources traductionnelles de corpus parallèles

Doctorat en Sciences du Langage, Université de la Sorbonne nouvelle - Paris 3

Titre :

Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèles

Auteur :

Maria Zimina-Poirot

Jury :

M. Eric Gaussier (Xerox Research Center Europe) - Examinateur
M. Benoît Habert (Université Paris X - Nanterre) - Rapporteur
M. André Salem (Université de la Sorbonne nouvelle - Paris 3) - Directeur de thèse
Mme Monique Slodzian (Institut National des Langues et Civilisations Orientales) - Rapporteur

Date de soutenance :

le 26 novembre 2004

Lieu de soutenance :

Censier, Université de la Sorbonne nouvelle - Paris 3

Présentation à la soutenance de thèse :

[PPT compressé 116 Ko]

Télécharger le mémoire ici :

[PDF 3,99 Mo]

Résumé :

Ce travail présente les résultats d'une série de recherches consacrées au développement d'une nouvelle famille d'outils d'exploration textométrique intertextuelle. De nombreuses méthodes de statistique textuelle ont été articulées et adaptées au cadre multilingue : la méthode des segments répétés, les spécificités, la topographie bi-textuelle, les cooccurrences multiples, l'analyse factorielle des correspondances, la classification automatique, etc. L'utilisation de chaque méthode dans le contexte multilingue est illustrée par des exemples d'applications concrètes, accompagnés d'échantillons de ressources traductionnelles obtenues à partir du corpus parallèle français/anglais de la Convention de sauvegarde des Droits de l'Homme. Les perspectives ouvertes par cette approche offrent aux traducteurs, enseignants en langues étrangères, terminologues, lexicographes, etc., des moyens automatisés pour explorer la structure des équivalences lexicales dans les corpus de traduction.

Resumé long :

[HTML]

Mots-clés :

alignement, bi-texte, corpus parallèles, correspondances traductionnelles, statistique textuelle, textométrie, topographie textuelle.

Title :

Quantitative approaches of extracting translation resources from parallel corpora

Summary :

This research work presents the results of a series of experiments devoted to the development of new tools for intertextual textometric exploration of translation corpora. Various methods of textual statistics have been adapted for use in a multilingual context and put into practice for parallel text processing, such as: repeated segments extraction, characteristic elements computation, bi-textual topography, multiple co-occurrences, factorial analysis, automatic classification, etc. Examples of concrete applications illustrate the use of each of these methods in a multilingual context. These examples are accompanied by sample translation resources obtained on quantitative bases from the parallel French/English corpus of the Convention for the Protection of Human Rights. The suggested approach opens up new horizons for automatic exploration of lexical equivalences of translation corpora by a variety of users: translators, foreign language teachers, terminologists, lexicographers, etc.

Key words :

alignment, bi-text, parallel corpora, textometrics, textual statistics, textual topography, translation correspondences.