Etape2

Etape2: Aspiration des pages web avec wget.

Après avoir séléctionner les pages web qui renvoient aux différents sens du mot "Barrage" nous avons enregitré leurs Urls (Adresse web) dans des fichiers textes selon l'usage. Ce qui nous donne 5 fichiers (usage_hydro, usage_musique, usage_opposition, usage_routier et usage_sport) .
Ces listes d'Urls nous ont permis d'aspirer leurs pages web à l'aide de la commande wget.
Donc, wget est  un aspirateur de sites web (http ou ftp), utilisé dans l'environnement linux ou cygwin (shell), elle permet de copier en local (sur le disque de l'ordinateur) l'intégralité d'un site ou une page.
La commande wget fonctionne sur la syntaxe unix: commande [option1][option2]...[argument]... (EX: wget -O http://adresse_web).
Les options de wget sont nombreuses, voici quelques une:
-V ou --version: Affiche la version de Wget.

-h ou --help : Affiche un message d'aide décrivant toutes les options de ligne de commande de Wget.

  -q ou --quiet : Désactive la sortie de Wget.

-i fichier ou --input-file=fichier :Lit les URL depuis fichier. Dans ce cas, aucune URL n'est requise sur la ligne de commande. S'il y a des URL sur la ligne de commande et dans un fichier d'entrée, celles de la ligne de commande sont téléchargées en premier. fichier n'est pas nécessairement un document HTML, une simple liste d'URL convient également.

  -O fichier ou --output-document=fichier: Les documents ne seront pas écrits dans les fichiers appropriés, mais tous concaténés les uns aux autres et écrits dans fichier. Si fichier existe déjà, il sera remplacé. Si fichier vaut -, les documents seront écrits sur la sortie standard. Cette option positionne automatiquement le nombre de tentatives à 1.

Dans notre projet, nous avons utilisé la commande wget avec l'option -O et comme argument le nom de fichier qui contient la liste des URL. EX: $ wget -O ../PAGES-ASPIREES/usage_hydro/$i.html $nom ( PAGES-ASPIREES/usage_hydro/: le nom de répertoire qui va contenir les pages aspirées, i.html: le nom des pages enregistrées sur le disque où i c'est la variable initialisée à 1, qui s'incrimente (+1) à chaque lecture d'une URL dans le fichier nom)

   <Précédent Suivant>