Les commandes utilisées dans le script :
La commande file -i
La commande
file -i sert à récupérer l'encodage d'une page. Nous ne l'avons finalement pas utilisé dans notre script car ses résultats étaient aléatoires.
La commande ls
ls sert à lister le contenu des répertoires.
La commande cat
La commande
cat affiche le contenu du fichier passé en argument.
La commande cut
La commande
cut permet de couper du texte dans un fichier. Nous l'utilisons pour extraire le charset de nos pages.
La commande curl/wget
curl pour les mac ou
wget vont nous servir à aspirer nos pages.
wget et
curl permettent le téléchargement de fichiers à partir d'Internet.
Dans le cadre de notre travail,
curl nous a donné du fil a retordre car il n'aspirait pas toutes nos pages.
En effet, il était incapable d'aspirer les pages qui nous redirigeaient vers un nouvel url (mise à jour).
Il était donc plus pratique d'utiliser
wget.
La commande lynx
La commande
lynx est en quelques sortes l'ancêtre de Firefox.
Grâce à son argument
-dump nous pouvons récupérer uniquement le texte de nos urls.
Un dump est une copie d'une base de données ou d'un système de fichiers.
L'installation de
lynx sera différente selon le système d'exploitation que vous utilisez.
Si vous souhaitez installer
lynx sous mac vous pouvez vous rendre ici :
http://rudix.org/packages/lynx.html
Si vous êtes sous Linux il vous suffit d'entrer :
sudo apt-get install lynx
Pour démarrer
lynx, il faut tout simplement écrire :
lynx
La commande iconv
La commande
iconv sert à convertir l'encodage de base d'un fichier en un autre encodage.
Pour que la commande
iconv fonctionne il faut que
iconv connaisse l'encodage de base du fichier et l'encodage d'arrivée.
Pour avoir la liste des encodages que connait
iconv il faut ecrire la commande :
iconv -l
La commande egrep
La commande
egrep est une commande qui permet d'isoler rapidement un élément dans un fichier de configuration,
dans la sortie d'une commande ou dans un fichier texte quelconque.
“
egrep” est à l'origine une version étendue et améliorée
de “
grep”. “
egrep” supporte les expressions régulières étendues.
Elle nous sera donc très utile pour récupérer l'information sur l'encodage de nos pages html.
Dans notre script, la commande
egrep nous a servi à aller chercher l'encodage et nos contextes.