Boîte à Outils 1
Extraction des données
Objectif : parcourir toute l’arborescence de fichiers et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique). |
Lorsqu’on a affaire à un gros corpus de données, la première chose à faire est de sélectionner celles qui sont intéressantes dans le cadre de notre étude. Ici, on vise une analyse morpho-syntaxique, on veut donc extraire uniquement les contenus textuels dans les fils RSS c’est-à-dire, pour chaque actualité, un titre et une description en quelques phrases. Pour réaliser cette extraction, on s’appuiera sur la structure des fichiers au format xml contenant les données des fils RSS:

On voit bien ici que les contenus textuels qui nous intéressent (titre et description) sont entourés par des balises <titre></titre>
et <description></description>
qui permettent de les identifier nettement dans le document pour chaque <item></item>
, c’est-à-dire pour chaque actualité.
Toutes les tâches sont effectuées par le script perl BAO1_extraction_regexp.pl, construit en utilisant les expressions régulières:
En comparaison, une autre méthode a été implémentée pour illustrer l’utilisation de la bibliothèque XML::RSS dans le script perl BAO1_extraction_rss.pl. Les deux scripts parviennent au même résultat, toutefois on note une exécution plus rapide avec les expressions régulières.
Voici un schéma résumant ce qu'on trouve en sortie de la BàO 1:

Et ci-dessous, les résultats (pour les fichiers xml, ils peuvent mettre quelques secondes à charger):
BàO 1 avec les expressions régulières:
Cliquez sur l'icône pour afficher le script perl.

Lancement de la BAO 1 regexp sur la rubrique "à la une" via le terminal:

BàO 1 avec les fils RSS:
Cliquez sur l'icône pour afficher le script perl.

Lancement de la BAO 1 rss sur la rubrique "à la une" via le terminal:

Le plus important à cette étape est de s’assurer d’obtenir en sortie des données bien nettoyées pour pouvoir ensuite obtenir l’étiquetage le plus correct possible.