BaO 1

Boîte à Outils 1


Extraction des données

Objectif : parcourir toute l’arborescence de fichiers et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique).

Lorsqu’on a affaire à un gros corpus de données, la première chose à faire est de sélectionner celles qui sont intéressantes dans le cadre de notre étude. Ici, on vise une analyse morpho-syntaxique, on veut donc extraire uniquement les contenus textuels dans les fils RSS c’est-à-dire, pour chaque actualité, un titre et une description en quelques phrases. Pour réaliser cette extraction, on s’appuiera sur la structure des fichiers au format xml contenant les données des fils RSS:

arborescence

On voit bien ici que les contenus textuels qui nous intéressent (titre et description) sont entourés par des balises <titre></titre> et <description></description> qui permettent de les identifier nettement dans le document pour chaque <item></item>, c’est-à-dire pour chaque actualité.

Toutes les tâches sont effectuées par le script perl BAO1_extraction_regexp.pl, construit en utilisant les expressions régulières:

  • parcours de l’arborescence de fichiers à partir du répertoire de corpus 2020 pour atteindre les fichiers au format xml concernant la rubrique sélectionnée au lancement du programme.
  • extraction dans ces fichiers pour chaque item des contenus titre + description.
  • nettoyage et mise en forme des contenus pour préparer le travail d’étiquetage automatique.
  • En comparaison, une autre méthode a été implémentée pour illustrer l’utilisation de la bibliothèque XML::RSS dans le script perl BAO1_extraction_rss.pl. Les deux scripts parviennent au même résultat, toutefois on note une exécution plus rapide avec les expressions régulières.

    Voici un schéma résumant ce qu'on trouve en sortie de la BàO 1:

    schéma_sortie

    Et ci-dessous, les résultats (pour les fichiers xml, ils peuvent mettre quelques secondes à charger):

    BàO 1 avec les expressions régulières:

    Cliquez sur l'icône pour afficher le script perl.

    schéma_sortie

    Lancement de la BAO 1 regexp sur la rubrique "à la une" via le terminal:

    terminal_bao1_regex
    Rubrique Sortie txt Sortie xml
    A la Une Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml
    Europe Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml
    Sport Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml
    Cinéma Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml

    BàO 1 avec les fils RSS:

    Cliquez sur l'icône pour afficher le script perl.

    schéma_sortie

    Lancement de la BAO 1 rss sur la rubrique "à la une" via le terminal:

    terminal_bao1_rss
    Rubrique Sortie txt Sortie xml
    A la Une Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml
    Europe Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml
    Sport Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml
    Cinéma Cliquez ici pour voir la sortie texte Cliquez ici pour voir la sortie xml

    Le plus important à cette étape est de s’assurer d’obtenir en sortie des données bien nettoyées pour pouvoir ensuite obtenir l’étiquetage le plus correct possible.