PRESENTATION DU PROJET


L'objectif du projet de ce semestre est de construire un programme qui parcourt une arborescence de fichiers et applique un traitement sur chacun des fichiers rencontrés au moment du parcours. En sortie, le programme doit construire un fichier structuré (XML) contenant une trace du traitement réalisé sur les fichiers. On devra donc filtrer les contenus textuels des balises DESCRIPTION et TITLE contenues dans les balises ITEM (à partir d'un programme de filtrage qu'on aura construit) et on devra aussi conserver le titre de la "rubrique" du fil. Pour effectuer ce travail, nous travaillerons sur le corpus 2015


Ce projet s’appuie sur un corpus constitué de tous les fils RSS du journal le Monde de l’année 2015 organisés par rubrique (2 go de données organisées sous une arborescence de fichiers). Pour mémoire un fils RSS est fichier XML dont le contenu est produit automatiquement en fonction des mises à jour d’un site Web. Il se compose généralement des titres des mises à jour, des liens hypertextes correspondants, et de descriptions brèves de ces mises à jour.



ETAPES DU PROJET



– extraction du contenu texte de fichiers xml
– étiquetage morphosyntaxique de ces contenus textuels (grâce à Treetagger et Cordial)
– extraction des patrons morphosyntaxiques
– représentation graphique des patrons extraits.

Chaque étape sera traitée de différentes manières :
– pour l’extraction de données textuelles, nous écrirons un programme simple en Perl puis nous étudierons les bibliothèques dédiées (XML::RSS).
– pour l’extraction des patrons, il y a 3 manières de procéder : un programme pour lire dans l’arborescence les deux fichiers ensemble tous les jours et extraire le texte de chacun.