Accueil

Le site que vous allez explorer a été réalisé par une étudiante de Master1 Pro "Documents Numériques Multilingues" de l'INALCO (Institut National des Langues et Civilisations Orientales).

Je me présente

Italienne vivant en France depuis quatre ans, diplomée en Turc et en Arabe à l'INALCO, j'ai choisi de continuer mes études dans le domaine du Traitement Automatique des Langues, avec la perspective d'apprendre à construire des solutions informatiques aux problèmes du multilinguisme, notamment en ce qui concerne la traduction automatique et la terminologie multilingue.

Le projet

Le projet Boîte à Outils a été réalisé dans le cadre du cours Programmation et Projet Encadré, par tous les étudiants de la promotion 2006-2007 des Master1 PluriTal, dont l'INALCO fait partie avec les universités Paris III et Paris X.

Le but de ces travaux était d'acquérir la pratique de quelques outils de TAL qu'il est necessaire de maîtriser pour automatiser n'importe quelle chaîne de traitement textuel.

La chaîne de traitement

Le point de départ du traitement est une arborescence de fils RSS du site du quotidien Le Monde, à savoir des fichiers XML contenant les titres des articles, accompagnés d'un bref descriptif. L'ensemble de ces fichiers nous a fourni assez de données textuelles pour pouvoir constituer un petit corpus de la langue française journalistique. La période couverte correspond grosso modo à l'année 2006.

Parmi toute une série d'analyses possibles à partir de ce corpus, nous avons choisi d'extraire la liste des couples Nom-Adjectif, d'en calculer les cooccurrences et de dessiner un graphe explicitant les forces d'attirances entre les termes de cette liste - tout ceci de façon automatique, bien entendu.

La mise en place d'une chaîne de traitement textuel nous a permis notamment de nous familiariser avec le langage de programmation Perl, de tester quelques outils d'étiquetage morpho-syntaxique (Tree-tagger et Cordial) et d'utiliser un logiciel de création de graphes lexicométriques (Pajek).

Aller à l'étape suivante