Les commandes utilisées dans le script :


  • La commande file -i
  • La commande file -i sert à récupérer l'encodage d'une page. Nous ne l'avons finalement pas utilisé dans notre script car ses résultats étaient aléatoires.


  • La commande ls
  • ls sert à lister le contenu des répertoires.


  • La commande cat
  • La commande cat affiche le contenu du fichier passé en argument.


  • La commande cut
  • La commande cut permet de couper du texte dans un fichier. Nous l'utilisons pour extraire le charset de nos pages.


  • La commande curl/wget
  • curl pour les mac ou wget vont nous servir à aspirer nos pages. wget et curl permettent le téléchargement de fichiers à partir d'Internet. Dans le cadre de notre travail, curl nous a donné du fil a retordre car il n'aspirait pas toutes nos pages. En effet, il était incapable d'aspirer les pages qui nous redirigeaient vers un nouvel url (mise à jour). Il était donc plus pratique d'utiliser wget.


  • La commande lynx
  • La commande lynx est en quelques sortes l'ancêtre de Firefox. Grâce à son argument -dump nous pouvons récupérer uniquement le texte de nos urls. Un dump est une copie d'une base de données ou d'un système de fichiers. L'installation de lynx sera différente selon le système d'exploitation que vous utilisez.
    Si vous souhaitez installer lynx sous mac vous pouvez vous rendre ici : http://rudix.org/packages/lynx.html
    Si vous êtes sous Linux il vous suffit d'entrer : sudo apt-get install lynx
    Pour démarrer lynx, il faut tout simplement écrire : lynx


  • La commande iconv
  • La commande iconv sert à convertir l'encodage de base d'un fichier en un autre encodage.
    Pour que la commande iconv fonctionne il faut que iconv connaisse l'encodage de base du fichier et l'encodage d'arrivée.
    Pour avoir la liste des encodages que connait iconv il faut ecrire la commande : iconv -l


  • La commande egrep
  • La commande egrep est une commande qui permet d'isoler rapidement un élément dans un fichier de configuration,
    dans la sortie d'une commande ou dans un fichier texte quelconque. “egrep” est à l'origine une version étendue et améliorée
    de “grep”. “egrep” supporte les expressions régulières étendues.
    Elle nous sera donc très utile pour récupérer l'information sur l'encodage de nos pages html.
    Dans notre script, la commande egrep nous a servi à aller chercher l'encodage et nos contextes.


    Retour en haut de page