HISTORIQUE

Première étape: Choix d'une cinquantaine d'URL


Collecte d’une cinquantaine d’URL contenant les mots sélectionnés, les classer dans différentes fichiers textes. Comme le mot choisi comporte plusieurs sens, nous restreindront notre choix au sens du caractère écrit.


Deuxième étape: Construction d’un tableau HTML


À partir d’un premier script fourni par les professeurs, nous allons construire un premier tableau dans lequel sera stockée la liste des URL sélectionnées.

Ce premier script représente une première approche avec les commandes BASH, ainsi que le langage html et ses balises.

Par conséquent, ce premier script sera développé tout le long du projet et on y ajoutera effectivement tous les traitements effectués sur les URL dans de nouvelles cellules et de nouvelles colonnes. On créera ainsi progressivement le résultat final.


Troisième étape: Utilisation de la commande wget


Cette commande nous permet de télécharger les pages et de les stocker localement et hors connexion.


Quatrième étape: Utilisation de la commande Lynx –dump


On récupère le texte brut à partir des pages aspirées mais sans les images, les couleurs, les polices recherchées et on redirige le résultat vers une nouvelle colonne DUMP.


Cinquième étape: Utilisation de la commande egrep


On filtre le contexte du mot recherché à partir des pages dumpées, les mots recherchés sont contenus dans des fichiers txt qui sont lus par le script.


Sixième étape: Utilisation de minigrep


Il faut tout d'abord convertir tout les formats des fichiers en arabe en un seul format par exemple UTF8. Afin de lancer le minigrep qui est un programme réalisé en Perl qui joue le même rôle que egrep pour les fichiers en langue française .