BàO 2
Étiquetage des Contenus des Fils RSS
OBJECTIF
L’objectif de cette BàO est de construire un programme qui parcourt l’arborescence des fils RSS et applique un traitement d'étiquetage automatique à chaque fichier rencontré. On s’intéresse notamment aux contenus textueles des balises title et description des fils RSS..
CORPUS
Le corpus à traiter sera le même que nous avons utilisé pour la BàO 1 : les fils RSS du journal Le Monde de l’année 2020.
ÉTIQUETTEURS
Afin de faire l'étiquetage morphosyntaxique et en dépendances de chaque phrase deux outils deux outils deviennet incontournables, à savoir UDpipe et TreeTagger .
SCRIPTS
Deux scripts ont été utilisés, un script Perl et un autre utilisant XML:RSS. Les scripts permettent de parcourir l'arborescence et d'en extraire le titre et la description comme pour la BàO 1. Ensuite, l'étiquetage est opéré via UDpipe et TreeTagger.
Deux autres scripts ont été utilisés pour convertir les sorties txt des étiquetteurs en format XML. Pour Treetagger, la conversion a été incluse dans le script, pour UDpipe il a été effectué sur le Terminal.
Ci-dessous vous trouverez les fichiers XML et TXT d’UDpipe et les versions XML de TreeTagger organisées par rubrique.
Methode 1 : Script PERL - REGEX
Methode 2 : XML-RSS
Script conversion UDpipe XML<
RÉSULTATS
Les résultats obtenus pour le format XML sont assez grands en taille. Certaines "coquilles" sont réperés dans les fichiers, le caractère & doit être formaté ou supprime des résultats.
Sortie UDpipe
Exemple Sortie UDpipe
- © Yagmur Ozturk & Oscar Moreno Escobar. All rights reserved
- Design: HTML5 UP