Grâce à nos scripts, nous avons produit trois tableaux, un sur les Urls de l'anglais, le second sur l'espagnol et le dernier sur le français. Chaque ligne de ces tableaux s'applique à un URL.
La première correspond au numéro d'url, la seconde au Lien url, la troisième à la page aspirée. La quatrième colonne correspond à l'encodage de la page web de départ.
La cinquième colonne correspond à l'encodage de la page après traitement (conversion si besoin). La sixième colonne correspond au dump soit à la copie brute du texte de la page aspirée. La septième colonne correspond au contexte des motifs présents dans nos dumps. La huitième colonne correspond aux occurrences du motif recherché dans la page. Pour la construction des tableaux, vous pouvez vous rendre à l'onglet
Légende :
- Lorsque l'affichage de base est affiché comme Non-auto, cela signifie que notre programme n'est pas parvenu à récupérer l'encodage dans la page, nous l'avons donc fait manuellement en cherchant dans le code source de la page. - Non-Renseigné signifie que le charset n'était pas indiqué dans le code source de la page.
- Abonnement indique que la lecture complète de l'article de la page n'est possible qu'avec un abonnement au journal.