Ressources fournies et Problèmes à résoudre

Ressources fournies

1. Une arborescence de Fils RSS: Un corpus de journal le monde pour l'année 2008


2. Le squelette de programme:


Pour commencer la BAO1 nos professeurs nous ont fourni un programme qui permet de parcourir une arborescence de fichiers afin de nous réserver dans ce programme un espace dont nous pouvons appliquer notre traitement sur les fichiers en toute flexibilité.

Ce programme se base sur une fonction récursive qui fait un appel à elle même chaque fois qu'elle trouve un dossier elle relance le parcours. La condition d'arrêt de cette récursivité est lorsque le programme trouve un fichier d'où il lance le traitement à réaliser.


Le squelette de programme fournit : parcours-arborscence-fichiers.pl



Traitement à réaliser et problèmes


Le traitement à réaliser consiste à filtrer et à nettoyer le contenu des balises DESCRIPTION et TITLE contenues dans les balises ITEM. D'où il nous faut les opérations suivantes:


1.Extraire le contenu textuel des balises TITLE et DESCRIPTION.

2.Remplacer les caractéres spéciaux Html par les caractères correspondants

3.Supprimer les redondances: Par exemple la phrase suivante "Toute l'actualité au moment de la connection" se répète souvent dans tous les fichiers donc il faut la supprimer à chaque fois qu'on la trouve.

4.Supprimer les balises p a img et leurs contenus.

5.Avoir une sortie pour chaque rubrique: une sortie XML pour la rubrique europe et une autre pour la rubrique international.

6.Associer au contenu de balise TITLE, les contenus des balises descriptions correspondants.


  BAO 1

Télécharger le script + Les sorties de BAO1

  BAO 2

Télécharger le script + Les sorties de BAO2

  BAO 3

Télécharger le script + Les sorties de BAO3