PROJET ENCADRE : BARRAGE

En amont de l'automatisation...

J'ai souhaité travailler à partir d'un fichier URLs.txt unique, et générer un fichier xxx.html unique. Ceci implique une segmentation de ces deux fichiers, étant donné que j'ai pris en compte quatre usages (MILITAIRE, OUVRAGE, SPORT, POLICE). Ainsi le fichier URLs.txt contient une URL par ligne, sauf quatre lignes (dont la première) qui contiennent le "nom" de l'usage (MILITAIRE,...) représenté par les URLs qui suivent. Le script devra reconnaître ces lignes et agir en conséquence. Quant au fichier xxx.html de sortie, il contient un tableau unique divisé en quatre parties dont le "titre" (une cellule qui s'étend sur l'ensemble des colonnes) est le nom de l'usage représenté dans ce qui suit.

Le traitement des pages de résultat de Google

J'ai souhaité automatiser dans une certaine mesure le tri (par usage) des URLs, et la constitution de la liste. Concernant le tri, je souhaitais quatre pages de 100 résultats de Google, correspondant à quatre sens donnés par le TLFi : - (sp) militaire ("tir de barrage") - obstacle - ouvrage sur un cours d'eau - (sp) sport ("match de barrage") J'ai donc lancé quatre requêtes sur Google (avec à chaque fois plusieurs mots-clef dont "barrage", par exemple "barrage fleuve rivière" pour le sens "ouvrage sur un cours d'eau"), et sauvé localement dans quatre fichiers (milit, police, ouvrage, sport) les pages de résultat. Sur ces pages de résultat de Google, les liens pointant vers les pages trouvées ont un format identique et unique sur la page. On peut donc, en lançant une commande grep sur le code-source, les repérer et les extraire. Le format de ces liens se traduit au niveau du code-source par un appel à une information de style stockée au début de la page, sous la ballise