Boîte à Outils 1

Extraction des données

Objectif : parcourir toute l’arborescence de fichiers et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique).

Lorsqu’on a affaire à un gros corpus de données, la première chose à faire est de sélectionner celles qui sont intéressantes dans le cadre de notre étude. Ici, on vise une analyse morpho-syntaxique, on veut donc extraire uniquement les contenus textuels dans les fils RSS c’est-à-dire, pour chaque actualité, un titre et une description en quelques phrases. Pour réaliser cette extraction, on s’appuiera sur la structure des fichiers au format xml contenant les données des fils RSS:

On voit bien ici que les contenus textuels qui nous intéressent (titre et description) sont entourés par des balises <titre></titre> et <description></description> qui permettent de les identifier nettement dans le document pour chaque <item></item>, c’est-à-dire pour chaque actualité.

Toutes les tâches sont effectuées par le script perl BAO1_extraction_regexp.pl, construit en utilisant les expressions régulières:

parcours de l’arborescence de fichiers à partir du répertoire de corpus 2020 pour atteindre les fichiers au format xml concernant la rubrique sélectionnée au lancement du programme.

extraction dans ces fichiers pour chaque item des contenus titre + description.

nettoyage et mise en forme des contenus pour préparer le travail d’étiquetage automatique.

En comparaison, une autre méthode a été implémentée pour illustrer l’utilisation de la bibliothèque XML::RSS dans le script perl BAO1_extraction_rss.pl. Les deux scripts parviennent au même résultat, toutefois on note une exécution plus rapide avec les expressions régulières.

Voici un schéma résumant ce qu'on trouve en sortie de la BàO 1:

Et ci-dessous, les résultats (pour les fichiers xml, ils peuvent mettre quelques secondes à charger):

BàO 1 avec les expressions régulières:

Cliquez sur l'icône pour afficher le script perl.

Lancement de la BAO 1 regexp sur la rubrique "à la une" via le terminal:

Rubrique	Sortie txt	Sortie xml
A la Une	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml
Europe	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml
Sport	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml
Cinéma	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml

BàO 1 avec les fils RSS:

Cliquez sur l'icône pour afficher le script perl.

Lancement de la BAO 1 rss sur la rubrique "à la une" via le terminal:

Rubrique	Sortie txt	Sortie xml
A la Une	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml
Europe	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml
Sport	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml
Cinéma	Cliquez ici pour voir la sortie texte	Cliquez ici pour voir la sortie xml

Le plus important à cette étape est de s’assurer d’obtenir en sortie des données bien nettoyées pour pouvoir ensuite obtenir l’étiquetage le plus correct possible.