Boîte à outils

Accueil | BAO 1 | BAO 2 | BAO 3 | BAO 4 | Contacts

BAO 1

Objectif

A partir des fils RSS, recueillis un fois par jour à 19h sur plusieurs semaines, du journal le Monde, nous réaliserons un filtrage et un nettoyage de ces fichiers.

On part d'une arborescence donnée par les professeurs en cours arbo-fils.zip, on commence le traitement d'un fichier en utilisant le programme filtreur.pl.

Ce filtreur s'occupe uniquement du traitement d'un fichier.

On se charge du repérage des balises désirées pour le traitement puis on modifie par la suite notre filtreur qui va traiter une rubrique

On garde uniquement les balises "description" afin de pouvoir travailler sur le texte qui nous interesse.

On constate dans notre fichier xml beaucoup de caractères à problèmes. Pour remplacer ces caractères et faciliter la lecture de notre programme on utilise un sous programme qui viendra s'ajouter à notre filtreur. Nous avions fait appel à des if et next if dans nos premiers scripts.

On a commencé par tester le script filtreur+nettoyeur sur un seul fichier xml et uniquement sur 15 jours , et seulement après avoir obtenu des résultats convaincants on a fait tourner le script sur toute l'année en se basant sur 2 rubriques . Si on regarde un peu l'arborescence du répertoire 2008 sur lequel nous travaillons, on se rend compte qu'il y a des sous repertoires par mois et que toutes les rubriques sont mélangées. Par contre, elles se différencient par numéro . On va donc associer à chaque numéro un nom de rubrique .

Les Scripts

Nous avons donc choisi de travailler sur les fichiers médias et culture. Nous avons d'abord élaboré deux scripts distincts, l'un pour la rubrique médias, l'autre pour culture puis on a concaténé en quelque sorte ces deux scripts pour n'en former qu'un, avec deux sorties . Si on choisit de faire un script pour lequel on a une sortie en .xml et un autre pour lequel on a une sortie en .txt , c'est par anticipation sur les étapes à venir . On aura besoin de résultats en xml et en txt . Le programme est quasiment le même . La principale différence est que pour celui qui donne une sortie xml, on ajoute une entête et un pied de page, afin que le document de sortie soit bien formé . On donne comme premier argument (donc ARGV[0]) "2008" , à savoir le répertoire dans lequel il y a toute l'arborescence .

Script .txt	Sortie txt Médias
	Sortie txt Culture
Script XML	Sortie xml Médias
	Sortie XML Culture

Voir Script Sortie txt
Voir Script Sortie XML

Les problèmes

Il nous a fallu faire de multiples scripts pour obtenir de bon résultats. Vous pouvez visualiser les scripts produits au cours du semestre sur notre blog. Nous avions en sortie des fichiers textes contenant énormément de lignes vides et de doublons . Pour pallier à ce problème, nous avons utilisé directement en ligne de commande, dans cygwin, les commandes suivantes : sed '/^$/d' fichier.txt>fichier2.txt pour supprimer les lignes vides suivi de sort -u fichier2.txt > fichier 3.txt pour ôter les doublons restants .
En lançant notre script on a souvent rencontré des problèmes d'extraction dans notre programmme. Pire encore celui-ci sauvegardait les caractères que nous nous ne désirons pas.(ex DUMPFULL, ) Par exemple:

Dans nos script début	Page Blog
Scripts par fichier	Page Blog
Problème de doublons	Page Blog

Retourner en haut de la page