BàO 2

Étiquetage des Contenus des Fils RSS

OBJECTIF


L’objectif de cette BàO est de construire un programme qui parcourt l’arborescence des fils RSS et applique un traitement d'étiquetage automatique à chaque fichier rencontré. On s’intéresse notamment aux contenus textueles des balises title et description des fils RSS..


CORPUS


Le corpus à traiter sera le même que nous avons utilisé pour la BàO 1 : les fils RSS du journal Le Monde de l’année 2020.


ÉTIQUETTEURS


Afin de faire l'étiquetage morphosyntaxique et en dépendances de chaque phrase deux outils deux outils deviennet incontournables, à savoir UDpipe et TreeTagger .


SCRIPTS


Deux scripts ont été utilisés, un script Perl et un autre utilisant XML:RSS. Les scripts permettent de parcourir l'arborescence et d'en extraire le titre et la description comme pour la BàO 1. Ensuite, l'étiquetage est opéré via UDpipe et TreeTagger.

Deux autres scripts ont été utilisés pour convertir les sorties txt des étiquetteurs en format XML. Pour Treetagger, la conversion a été incluse dans le script, pour UDpipe il a été effectué sur le Terminal.

Ci-dessous vous trouverez les fichiers XML et TXT d’UDpipe et les versions XML de TreeTagger organisées par rubrique.

Methode 1 : Script PERL - REGEX

Methode 2 : XML-RSS

Script conversion UDpipe XML<


RÉSULTATS


Les résultats obtenus pour le format XML sont assez grands en taille. Certaines "coquilles" sont réperés dans les fichiers, le caractère & doit être formaté ou supprime des résultats.

Sortie UDpipe

Exemple Sortie UDpipe