BàO 2

Étiquetage des Contenus des Fils RSS

OBJECTIF

L’objectif de cette BàO est de construire un programme qui parcourt l’arborescence des fils RSS et applique un traitement d'étiquetage automatique à chaque fichier rencontré. On s’intéresse notamment aux contenus textueles des balises title et description des fils RSS..

CORPUS

Le corpus à traiter sera le même que nous avons utilisé pour la BàO 1 : les fils RSS du journal Le Monde de l’année 2020.

ÉTIQUETTEURS

Afin de faire l'étiquetage morphosyntaxique et en dépendances de chaque phrase deux outils deux outils deviennet incontournables, à savoir UDpipe et TreeTagger .

SCRIPTS

Deux scripts ont été utilisés, un script Perl et un autre utilisant XML:RSS. Les scripts permettent de parcourir l'arborescence et d'en extraire le titre et la description comme pour la BàO 1. Ensuite, l'étiquetage est opéré via UDpipe et TreeTagger.

Deux autres scripts ont été utilisés pour convertir les sorties txt des étiquetteurs en format XML. Pour Treetagger, la conversion a été incluse dans le script, pour UDpipe il a été effectué sur le Terminal.

Ci-dessous vous trouverez les fichiers XML et TXT d’UDpipe et les versions XML de TreeTagger organisées par rubrique.

RÉSULTATS

Les résultats obtenus pour le format XML sont assez grands en taille. Certaines "coquilles" sont réperés dans les fichiers, le caractère & doit être formaté ou supprime des résultats.

Sortie UDpipe

Exemple Sortie UDpipe

Design: HTML5 UP