II PROGRESSION DU TRAVAIL PAR ETAPES :

 

 

 

Etape N°1 :

     On a commencer par rechercher les 50 URL traitant du sens de mot « barrage » nécessaire a notre travail. On a sélectionné trois sens ou «  thèmes » de recherches qui sont ;

( hydraulique, routier( circulation), et sport ( match de barrage). On a stocké les liens correspondant a chaque sens dans un fichier texte a part. Après on a appliqué la commande WGET –I  pour récupérer ces liens téléchargés et aspirer les pages web.

 

            Commande utilisée : WGET –i  <NOM fichier>

 

En utilisant cette commande on a comme résultat une liste de pages aspirées disponible ICI

 

 

Etape  N°2 :

 

      En modifiant le script donné, on a transformé les liens téléchargés et enregistrés sous une forme texte, en liens hypertexte, en les stockant dans des tableaux qu’on définit dans le script.

   

      Script modifié :

 

      Script d’origine :

 

Les résultats après l’exécution du script :

 

    Pour le sens « HYDRAULIQUE »

    

    Tab1

 

    Pour le fichier « ROUTIER »

 

     Tab2

 

    Pour le sens « SPORT »

     Tab3

 

 

Etape N°3 :

 

     Extraire des pages Html aspirées, le texte qu’elles contiennent. A l’aide de la commande

Lynx –dump qu’on a utilise dans un petit script appliqué sur les pages html aspirées (automatisation de la tache).

 

Script utilise 

 

Resultats.

 

 

    Apres ca on  a appliquer sur les textes récupérés la commande EGREP avec l’option –i pour but d’extraire les phrases contenant le mot « barrage »

 

Script utilise.

 

Résultats.