Projet Mot Sur Le Web autour du motif "crime d'honneur"
Les différentes étapes de l'élaboration du projet sont expliquées en détails dans leblog. De ces étapes ont vu le jour les tableaux suivants, qui reprennent :
- les adresses URLs
- le code curl, indiquant si la page du site est disponible et peut être aspirée
- le lien vers la page aspirée
- l'encodage initial de la page aspirée (utf-8, iso-8859-1,...)
- le contenu (DUMP) initial des pages web aspirées
- le contenu après conversion si l'encodage initial n'était pas utf-8
- le contexte des motifs en format texte (encodé en utf-8
- le contexte des motifs en format html
- la fréquence des motifs dans les fichiers DUMP
Le premier tableau traite des urls en français, le deuxième en ourdou et le troisième en pendjabi.