Projet Barrage

Etape 2: Récupérer les pages html

Pour sauvegarder les pages html sur notre ordinateur, nous avions deux choix possibles.
Le premier était de se rendre sur chaque page et faire "Enregistrer Sous" avec les commandes du navigateur. Vous pouvez tout de suite remarquer que cette méthode est longue et contraignante.
Le deuxième choix était d'utiliser la commande UNIX, wget. Cette méthode est très rapide et se réalise en un minimum d'opérations.
Je vous laisse deviner laquelle de ces deux méthodes nous avons utilisées.

Et oui! Nous avons préféré nous essayer à wget!
Wget est un programme non interactif de téléchargement de fichiers depuis le Web.
C'est un logiciel libre qui supporte les protocoles HTTP, HTTPS et FTP ainsi que le téléchargement au travers des proxies HTTP.
Wget est non interactif c'est-à-dire qu'il peut travailler en arrière-plan, sans intervention de l'utilisateur. Ceci vous permet de lancer un téléchargement et de vous déconnecter du système, laissant Wget finir le travail. En revanche, la plupart des navigateurs Web requièrent la présence constante de l'utilisateur, ce qui est particulièrement pénible lorsqu'on transfère beaucoup de données.
Wget peut suivre les liens des pages HTML et XHTML et créer une copie locale de sites web distants, en récréant complètement la structure du site original. Ceci est parfois désigné sous le nom de « téléchargement récursif ». En faisant cela, Wget respecte le standard d'exclusion de robots (/robots.txt). Wget peut aussi convertir les liens dans les fichiers HTML téléchargés pour la consultation locale.
Wget a été conçu pour être robuste en dépit des connexions réseaux lentes ou instables : si un téléchargement échoue suite à un problème réseau, il réessayera jusqu'à ce que l'intégralité du fichier soit téléchargée. Si le serveur supporte la reprise, il lui demandera de reprendre là où le téléchargement s'est interrompu.
(Source: http://www.delafond.org/traducmanfr/man/man1/wget.1.html)

Wget peut s'utiliser à partir d'un fichier .txt qui contient une liste d'URLs que l'on veut télécharger. C'est justement ainsi que nous l'avons utilisé grâce aux fichiers d'URLs que nous avions créés à l'étape 1. Pour se faire il faut taper, dans la console UNIX, la commande suivante:

wget -i file

Les pages récupérées ainsi ont été stockées dans le dossier Pages-Aspirees

Cette opération réalisée, nous pouvions nous diriger vers l'Etape 3