journal

#!/bin/bash
echo "donne nom de fichier contenant liste d'url";
read fic; #le programme connait le fichier de liens sous le nom $fic
echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo
echo "<html><head><title>tableau de liens</title></head><body bgcolor="EEEEEE" ><table border=4 ><tr>" > $tablo; #code de début de tableau
echo "<tr><td>URL</td><td>FICHIER LOCAL</td><td>FICHIER DUMP</td><td>CONTEXTE</td><td>NOMBRE DOCCURENCES</td>">>$tablo;
mkdir dump;
mkdir motif;
for nom in `cat $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
if echo "$nom" | grep -q "http";
then
nom2=`echo $nom|sed -ne 's/.*\///p'` ;
nom3=`echo $nom2|sed -ne 's/html/txt/p'` ;
lynx -dump capture/$nom2 > dump/$nom3;
egrep -i -A1 -B1 "barrage" dump/$nom3>motif/$nom3;
nb=`egrep -i -c "barrage" dump/$nom3`;
echo "<tr>">>$tablo;
echo "<td><a href=\"$nom\">$nom</a></td>" >> $tablo; #création d'un tableau à une colonne et autant de lignes qu'il y a d'URL

echo "<td><a href=\"capture/$nom2\">capture</a></td>">>$tablo;
echo "<td><a href=\"dump/$nom3\">dump</a></td>">>$tablo;
echo "<td><a href=\"motif/$nom3\">egrep</a></td>">>$tablo;
echo "<td>$nb</td>">>$tablo;
echo "</tr>">>$tablo;

else
echo "<tr><td>$nom</td></tr>">>$tablo;

fi;
}
echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé, ouvrez-le

voir le tableau final

On a travaillé à partir du fichier d'urls classé par catégories. On a rajouté une structure conditionnelle (if... else) à l'affichage d'une ligne de tableau, qui fasse la différence entre les catégories et les URLS, en décrivant à l'aide d'une expression régulière ce qu'est une URL .

    On nous a donc demandé de traiter une cinquantaine d'URL afin de constituer ce corpus. On s'aperçoit bien qu'il aurait été très long de tout faire manuellement. Grâce aux commandes shell, nous avons pu gagner un temps précieux.
    Automatiser n'est pas chose aisée dans la mesure ou toute automatisation peut produire des flux inninterprétables, du bruit, ou du silence, ce qui peut gêner l'analyse. Cependant, il suffit souvent de réflechir un peu pour trouver une solution. Les outils mis à notre disposition, outre le fait d'être libres, sont extremement puissants et sont particulièrement adaptés à ce type de travail. De plus il faut reconnaître que lorsqu'un script s'execute et renvoie les resultats attendus, on en retire un certain contentement, ce qui n'est pas négligeable.
    Nous y gagnons donc du temps, de l'argent et de l'expérience...

1. Introduction

2. Le mot barrage

3. Choix des pages contenant le mot barrage

4. Capture des pages avec wget

Problèmes rencontrés à cette étape

5. Transformation des fichiers .html en texte brut grâce à la commande lynx.

Problèmes rencontrés à cette étape

6. Organisation des données et automatisation des taches

6.1 Script permettant la création automatique d'un tableau de résultats

6.2 Ajout au tableau des liens vers les fichiers locaux

6.3 Automatisation de la commande lynx

7. Recherches des contextes du mot "barrage"

8. Tableau final : automatisation avancée

9. Conclusion