.

Navigation


Objectif de la série BàO

Ce Projet a été réalisé dans le cadre pluriTAL, cours en commun entre l'INaLCO, les universités de ParisIII et ParisX. (Serge Fleury, Rachid Belmouhoub, Jean-Michel Daube)

Mise en place d'un ensemble d'outils informatiques dont le but est de constituer une chaîne de traitement automatique applicable à une arborescence de répertoires dans lesquels sont stockés des fils de press RSS.

Continue


Corpus de travail et ressources

Le corpus de travail est constitué de l'ensemble des fils RSS (Really Simple Syndication) disponibles sur le site du journal Le Monde recueillis tous les jours de l'année 2008 à 19h.

Le fil RSS est un fichier texte particulier au format XML dont le contenu est produit automatiquement en fonction des mises à jours d'un site Web. C'est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information.

Sur ce projet, on a traité le rubrique " A la une "

Continue


Déscriptions des séries Boîte à Outils

* Boîte à outils 1 : Filtrage et nettoyage du contenu textuel des fils RSS par le script Perl.

* Boîte à outils 2 : Etiquetage du texte par Treetagger et Cordial.

* Boîte à outils 3 : Extraction de patrons syntaxiques.

* Boîte à outils 4 : Transformation des fichiers en graphiques par patron2graphe.


.