Traitement du Profondeur

Cette année, on a une nouvelle tâche à faire : extraire le texte complet des articles associés aux fichiers RSS sur l’ensemble de l’arborescence 2015

Au début, on a deux idées différentes pour réaliser cette tâche :
Une est basée sur ce qu’on a fait avant avec les balises, c'est-à-dire qu'on doit mettre tout dans une même ligne.
L'autre efface d’abord les balises et on peut ensuite nettoyer le corpus une ligne par une ligne.
La solution proposée ici a pris la première idée, car bien que en utilisant les balises, l'extraction soit très facile à faire, le nettoyage est impossible.

L'idée du script

1. Parcourir l'arborescence et trouver les fichiers en format TXT.
2. Lire les fichiers une ligne par une ligne et effacer ce dont on n'a pas besoin.
3. Pour effacer les java scripts, mettre tout en une même lignes et utiliser les expressions régulières correspondantes.

Comme le corpus est très sale, on n'a pas réussi à le nettoyer totalement, par exemple, le nom du journaliste reste encore.

Téléchargement