Présentation

Ce site présente les résultats d'un projet mené dans le cadre du cours de Programmation et Projet encadré (enseignants: JM Daube, S. Fleury, R. Belmouhoub) du Master 1 TAL à Paris 3 - ILPGA.

Objectif du projet

L'objet du projet BAO ("Boîtes à Outils") ce projet est la "mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation".


Il s'agit de partir des fils RSS du site LeMonde.fr et d'en extraire le contenu textuel (BaO 1); puis d'étiqueter grammaticalement le texte obtenu (BaO 2) afin de pouvoir ensuite faire dessus une extraction de patrons syntaxiques (BaO 3) ; enfin, de générer une représentation de ces patrons sous forme de graphes pour aboutir in fine à des données lexicologiques commentables (BaO 4).

L'objectif final était un prétexte pour se familiariser avec un certain nombre de méthodes (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats) et d'outils informatiques, entre autres : le langage de programmation Perl, TreeTagger, Cordial, XML, Pajek.

haut de la page