Le Tuning en quatre langues
Voici le résultat du script effectué en bash et html. Nous avons 4 tableaux, un pour chaque langue. Il y a environ une cinquantaine d'URL pour chaque langue. Dans ce tableau est mentionné : le code http de la page web, l'url en question, un lien vers la page aspirée, un autre vers le dump, qui est un fichier au format textuel. Nous avons également un compteur motif qui représente le nombre d'occurrences de notre motif dans la page web. Les contextes comportent les phrases dans lesquelles les motifs ont été trouvés. Pour finir, des fichiers textes incluant les index et les bigrammes.