Etape 1: Extraction de textes

Pour extraire les parties textuelles des pages en anglais et en japonais, on réutilise le programme tableau.sh inspiré du projet mot sur le web (semestre 1). Il faudra juste effectuer quelques modifications au niveau du codage des caractères (UTF-8). On obtient pour chaque langue un tableau qui contient les adresses, les pages aspirées, les DUMPS et les contextes dans lequel apparait le mot stress. Dans le cadre de se projet on ne se servira que des textes DUMP anglais et japonais.



ANGLAIS
SENS LIENSPAGES ASPIREESDUMPCONTEXTES
urls lien n° 1 page n° 1 dump n° 1 contexte n° 1
lien n° 2 page n° 2 dump n° 2 contexte n° 2


JAPONAIS
SENSLIENSPAGES ASPIREESDUMPCONTEXTES
urls lien n° 3 page n° 3 dump n° 3 contexte n° 3
lien n° 4 page n° 4 dump n° 4 contexte n° 4