BAO 1 
                          Objectif
 
                          A partir des fils RSS, recueillis un fois par jour à 19h sur plusieurs semaines, du journal le Monde, 
						  nous réaliserons un filtrage et un nettoyage de ces fichiers. 
						  On part d'une arborescence donnée par les professeurs en cours arbo-fils.zip, on commence le traitement d'un fichier
						   en utilisant le programme filtreur.pl. 
						  
 
  
						   
						   
   Ce filtreur s'occupe uniquement du traitement d'un fichier. 
						   
						  
  				  	  
						  On se charge du repérage des balises désirées pour le traitement puis on modifie par la suite notre filtreur qui va traiter une rubrique 
						  
 
  
						  
  On garde uniquement les balises "description" afin de pouvoir travailler sur le texte qui nous interesse.
						On constate dans notre fichier xml beaucoup de caractères à problèmes. Pour remplacer ces caractères et faciliter la lecture de notre programme on utilise un sous programme qui viendra s'ajouter à notre filtreur.
						Nous avions fait appel à des if et next if dans nos premiers scripts.
						 
 
 
  
						
 
  
						On a commencé par tester le script filtreur+nettoyeur sur un seul fichier xml et uniquement sur 15 jours , et seulement après avoir obtenu des résultats convaincants on a fait tourner le script sur toute l'année en se basant sur 2 rubriques .  
Si on regarde un peu l'arborescence du répertoire 2008 sur lequel nous travaillons, on se rend compte qu'il y a des sous repertoires par mois et que toutes les rubriques sont mélangées. Par contre, elles se différencient par numéro . On va donc associer à chaque numéro un nom de rubrique .
						
						
 
  
						 
 
  
						 Les Scripts
						   Nous avons donc choisi de travailler sur les fichiers médias et culture. Nous avons d'abord élaboré deux scripts distincts, l'un pour la rubrique médias, l'autre pour culture puis on a concaténé en quelque sorte ces deux scripts pour n'en former qu'un, avec deux sorties . Si on choisit de faire un script pour lequel on a une sortie en .xml et un autre pour lequel on a une sortie en .txt , c'est par anticipation sur les étapes à venir . On aura besoin de résultats en xml et en txt . Le programme est quasiment le même . La principale différence est que pour celui qui donne une sortie xml, on ajoute une entête et un pied de page, afin que le document de sortie soit bien formé .
						On donne comme premier argument (donc ARGV[0]) "2008" , à savoir le répertoire dans lequel il y a toute l'arborescence .
  
							
							 Voir Script  Sortie txt  
							Voir Script  Sortie XML 
							Les problèmes
Il  nous a fallu faire de multiples scripts pour obtenir de bon résultats. Vous pouvez visualiser les scripts produits au cours du semestre sur notre blog.
Nous avions en sortie des fichiers textes contenant énormément de lignes vides et de doublons . Pour pallier à ce problème, nous avons utilisé directement en ligne de commande, dans cygwin, les commandes suivantes :
sed '/^$/d' fichier.txt>fichier2.txt   pour supprimer les lignes vides
suivi de sort -u fichier2.txt > fichier 3.txt pour ôter les doublons restants .
	
	  En lançant notre script on a souvent rencontré des problèmes d'extraction dans notre programmme. Pire encore celui-ci sauvegardait les caractères que nous nous ne désirons pas.(ex DUMPFULL, )
	
Par exemple: 
  
						
 
  
								 Retourner en haut de la page 
			
							 |