BàO 2
Dans cette étape, nous allons étiqueter automatiquement les contenus textuels. Pour ce faire, le Treetagger et UDpipe sont utilisés.
Script Perl
-On notera que ce script est la version modifiée depuis le script de boîte à outils 1. Ce script génère aussi la sortie de contenus textuels comme la boîte à outils 1. Par conséquent, il n'est pas nécessaire de lancer le script de bàO 1 pour pouvoir exécuter ce script.
-Exemple d'utilisation : perl bao2_hayoung_seo.pl répertoire-à-parcourir rubrique
Nous trouvons un problème d'étiquetage pour Treetagger. Treetagger sépare l'entité & en deux parties (& et ;) puis les étiquete à part. Par conséquent, cette ligne system("sed -i '' -e 's & \\& g' bao2_sortiexml_treetagger_$rubrique");
a été ajouté dans le sous-programme etiquetagetreetagger
pour pouvoir former une bonne structure du fichier XML. Cette reformatage est nécessaire pour la boîte à outils 3.
Résultat
On notera que la sortie XML a le problème d'affichage à cause de l'entité & car il s'agit d'un fichier XML généré après le sous programme pretraitement
pour le Treetagger. L'entité & est séparée en deux comme on a vu précédemment
Fil RSS | Rubrique | Sortie Texte | Sortie XML | Sortie UDpipe TXT | Sortie UDpipe XML | Sortie Treetagger |
---|---|---|---|---|---|---|
3208 | A la Une | 3208 TXT | 3208 XML | 3208 UDpipe TXT | 3208 UDpipe XML | 3208 TT XML |
3210 | International | 3210 TXT | 3210 XML | 3210 UDpipe TXT | 3210 UDpipe XML | 3210 TT XML |
3214 | Europe | 3214 TXT | 3214 XML | 3214 UDpipe TXT | 3214 UDpipe XML | 3214 TT XML |
3224 | France | 3224 TXT | 3224 XML | 3224 UDpipe TXT | 3224 UDpipe XML | 3224 TT XML |