Dans les tableaux suivants, on trouve toutes les informations qui ont été extraites d'URLs à travers le script présenté précédemment. On voit les pages aspirées (P.A), les fichiers texte avec leur contenu en UTF-8, les contextes textuels de nos motifs, l’index de chaque page et finalement les bigrammes. De plus, on trouve d’autres informations, comme, par exemple, la façon dont on a extrait le code http ou le nombre de fois que notre motif apparait dans le texte. L’affichage sous forme de tableau permet d’accéder au fichier facilement et de manière ordonnée. En outre, de cette façon, le partage d’informations est plus aisé. En plus du corpus complet dans les tableaux, vous trouverez ci-dessous le corpus nettoyé (sauf pour le corpus en russe):
Seulement 5 des 200 liens récoltés n’ont pas pu être récupérés. Autrement dit, le script a réussi à bien traiter 97% des liens. De ces liens bien traités, un 96,5% est encodé en UTF-8. Cependant, on n’a pas pu récupérer et transcoder le texte de certaines pages à cause de la façon dont elles avaient de coder le texte (par exemple, en JavaScript). Au moment d’explorer ou de lire des données textuelles, assurez-vous que le navigateur ou le logiciel utilisé soit paramétré pour lire les fichiers en UTF-8 (spécialement pour le corpus en russe).