L'intégration du code de la page précédente à notre script n'a pas été une mince affaire car j'ai rencontré plusieurs problèmes, notamment des problèmes d'encodage.
Tout au long de la phase de code, je me suis servie des flux RSS de 2008 pour tester mes scripts afin de savoir s'ils étaient fonctionnels. Et lorsqu'ils l'étaient, je les testais sur 2014. Or, lors de la mise en place de cette dernière boîte à outils, je n'ai rencontré aucun problème sur les données de 2008 et une multitude sur les données de 2014, le principal problème étant l'encodage. En effet, dans les fichiers générés par TreeTagger et tt2xml-art.pl, j'ai pu remarquer que les mots n'étaient pas encodés correctement.
Après avoir corrigé cela en modifiant le fichier tt2xml-art.pl pour qu'il ouvre et crée des fichiers XML encodés en UTF-8. Je relance le script sur les données de 2008 et une fois encore sur un échantillon de 2014. Le résultat n'est pas mieux : il reste encore des problèmes d'encodage de caractères uniquement sur les données de 2014. À partir de ce moment-là, je dois avouer que cela m'a pris au moins une demi-journée pour revoir tous les scripts dans leur intégralité pour vérifier lequel était défaillant.
Finalement, ce fut le script de la boîte à outils 3 qui n'était pas bon. En effet, rien n'indiquait qu'il ouvrait les fichiers en UTF-8, ni qu'il écrivait dedans en UTF-8. De ce fait, par défaut, Perl ouvrait les fichiers en Latin 1 et écrivait dedans en Latin 1.
On peut encore retrouver dans quelques murs l'empreinte de mon crâne.