Étiqueter les contenus textuels extraits automatiquement

Treetagger et UDpipe : annotation en morpho-syntaxe et en dépendances

Objectifs

‐ Extraire le texte avec des méthodes « rustiques » : les expressions régulières
‐ Extraire le texte avec des outils adaptés : la bibliothèque XML ::RSS
‐ Intégrer ces traitements dans le programme de parcours d’une arborescence de fils RSS 
‐ Préparer au moins 2 types de sortie : texte brut (sortie pour étiquetage avec Cordial), texte structuré en XML 

Problèmes à résoudre

‐ Problèmes d’encodage des fils en entrée (utf‐8, iso‐8859‐1…) 
‐ Certains fils contiennent des scories d’encodage…
‐ Pour certains fils RSS en format XML, les fichier sont écrit sur une seule ligne ou plusieurs lignes…
‐ Une des sorties doit être en XML : s’assurer de construire du xml bien formé ou une feuille de style

Mise en œuvre avec deux méthodes

1. Perl et les RegExp    script    résultats
Ce script perl prend en entrée le nom du fichier contenant tous les fils RSS de l'année 2020 ainsi que le numéro de la rubrique à traiter. Il réalise d'abord un parcours sur l'ensemble des sous fichiers afin de trouver les fichiers dont on a besoin pour l'extraction. Ensuite, grâce à une expression régulière, le programme identifie les contenus entre les balises "titre" et les balises "description" puis les extrait.

2. Perl et la bibliothèque XML::RSS    script    résultats
Cette méthode prend en considération la structuration logique du texte (sous la forme d'un arbre de "la famille RSS" ) et sa modélisation dans un programme pour au final n'avoir qu'à "cueillir" les feuilles textuelles visées !

3. Comparaison    Les deux méthodes donnent des résultats identiques mais le temps de traitement nécessaire pour chacun ne l'est pas ! Généralement, la méthode regex est 8 fois plus rapide que la méthode avec XML:RSS !

rubriqueregexxml:rss
32080.674318s5.982587s
32240.683699s5.388945s
32320.641284s5.421392s
32340.608737s5.480011s
32460.586095s5.374622s
35460.562697s5.362816s