BàO 2

Dans cette étape, nous allons étiqueter automatiquement les contenus textuels. Pour ce faire, le Treetagger et UDpipe sont utilisés.


Script Perl

-On notera que ce script est la version modifiée depuis le script de boîte à outils 1. Ce script génère aussi la sortie de contenus textuels comme la boîte à outils 1. Par conséquent, il n'est pas nécessaire de lancer le script de bàO 1 pour pouvoir exécuter ce script.
-Exemple d'utilisation : perl bao2_hayoung_seo.pl répertoire-à-parcourir rubrique


Nous trouvons un problème d'étiquetage pour Treetagger. Treetagger sépare l'entité & en deux parties (&amp et ;) puis les étiquete à part. Par conséquent, cette ligne system("sed -i '' -e 's & \\& g' bao2_sortiexml_treetagger_$rubrique"); a été ajouté dans le sous-programme etiquetagetreetagger pour pouvoir former une bonne structure du fichier XML. Cette reformatage est nécessaire pour la boîte à outils 3.


Résultat

On notera que la sortie XML a le problème d'affichage à cause de l'entité & car il s'agit d'un fichier XML généré après le sous programme pretraitement pour le Treetagger. L'entité & est séparée en deux comme on a vu précédemment
Fil RSS Rubrique Sortie Texte Sortie XML Sortie UDpipe TXT Sortie UDpipe XML Sortie Treetagger
3208 A la Une 3208 TXT 3208 XML 3208 UDpipe TXT 3208 UDpipe XML 3208 TT XML
3210 International 3210 TXT 3210 XML 3210 UDpipe TXT 3210 UDpipe XML 3210 TT XML
3214 Europe 3214 TXT 3214 XML 3214 UDpipe TXT 3214 UDpipe XML 3214 TT XML
3224 France 3224 TXT 3224 XML 3224 UDpipe TXT 3224 UDpipe XML 3224 TT XML