#!/bin/bash
# à exécuter dans le répertoire PROJET-BARRAGE

echo "donne nom de répertoire contenant UNIQUEMENT les listes d'url (.txt)"; 
#c'est la liste des pages wgettées
read rep;  #le programme connait le répertoire sous le nom $fic
ls $rep | sed 's/\.txt//g' > ./dir.txt		
# crée un fichier txt contenant la liste
# des fichiers-listes d'url (noms sans extension)
#
echo "<html><;head><title>;Tableau de liens</title></head><body bgcolor="plum">" > ./JOURNAL/tablo-global.html;
# code de début de tableau, pour le tableau global
cd $rep
for fic in `cat ../dir.txt` # pour chaque nom de fichier contenu dans le répertoire
{
   echo "<h2 align=center><strong><font color="azure">Barrage_$fic</font></strong></h2>
	 <TABLE border=1 bgcolor="floralwhite">
	 <TH bgcolor="darkmagenta"><font color="papayawhip">Liens vers la page WEB
	 </font></TH><TH bgcolor="darkmagenta"><font color="papayawhip">Pages aspirées</font></TH>
	 <TH bgcolor="darkmagenta"><font color="papayawhip">Pages dumpées</font></TH>
	 <TH bgcolor="darkmagenta"><font color="magenta">Contexte</font></TH>" >> ../JOURNAL/tablo-global.html;
				# titre de chaque tableau, pour le tableau global
   echo "<html><head><title>Tableau de liens</title></head><body bgcolor="plum">
	 <h2 align=center><strong><font color="azure">Barrage_$fic</font></strong></h2>
	 <table border=1 bgcolor="floralwhite">
	 <TH bgcolor="darkmagenta"><font color="papayawhip">Liens vers la page WEB
	 </font></TH><TH bgcolor="darkmagenta"><font color="papayawhip">Pages aspirées</font></TH>
	 <TH bgcolor="darkmagenta"><font color="papayawhip">Pages dumpées</font></TH>
	 <TH bgcolor="darkmagenta"><font color="magenta">Contexte</font></TH>" > ../JOURNAL/tablo-$fic.html; 
	#code de début de tableau et titre du tableau, pour chaque fichier-tableau
	i=1		# compteur reinitialisé à 1, pour chaque nouvelle liste d'url
#
for nom in `cat $fic.txt` 	# $nom est la variable dans laquelle sera stocké chaque url
{
   wget -N --dns-timeout=60 --connect-timeout=60 -O ../PAGES-ASPIREES/$fic-$i.html $nom	#aspire chaque page
	lynx -dump $nom > ../DUMP-TEXT/$fic-$i.txt	#extrait le texte
	contexte=`egrep -i -A 2 -B 2 "barrage" ../DUMP-TEXT/$fic-$i.txt | 
	perl -ne 's/(^.*[bB][aA][rR][rR][aA][gG][eE].*$)/\<i\>$1\<\/i\>/g;print' | 
	sed 's/[bB][aA][rR][rR][aA][gG][eE]/\<strong\>\<font color=\"darkmagenta\"\>
	barrage\<\/font\>\<\/strong\>/g' | sed 's/$/\<br\/\>/g' `
	#filtre le contexte de "barrage", met chaque "barrage"
	# en gras, et affecte le tout à la variable $contexte
	echo "<tr><td width=15%><A href="$nom">page web $i</A></td>
	      <td width=15%><a href="../PAGES-ASPIREES/$fic-$i.html">
	      page aspirée $i</a></td>
	      <td width=15%><a href="../DUMP-TEXT/$fic-$i.txt">
	      page dumpée $i</a></td> 
	      <td width=55%><p>$contexte</p></td></tr>
	      <br/><br/>" >> ../JOURNAL/tablo-global.html; 
#												
	echo "<tr><td width=15%><A href="$nom">page web $i</A></td>
	      <td width=15%><a href="../PAGES-ASPIREES/$fic-$i.html">
	      page aspirée $i</a></td>
	      <td width=15%><a href="../DUMP-TEXT/$fic-$i.txt">
	      page dumpée $i</a></td> 
	      <td width=55%><p>$contexte</p></td></tr>" >> ../JOURNAL/tablo-$fic.html;
			#création d'un tableau à 4 colonnes et autant de lignes 
			# qu'il y a d'URL avec lien vers la page correspondante
			# stockage dans tablo-global et stockage dans chaque tableau
		let i=i+1
		}
		echo "</TABLE>" >> ../JOURNAL/tablo-global.html;
		echo "</TABLE></body></html>" >> ../JOURNAL/tablo-$fic.html; 
				#code de fin de tableau, fin fichier html
	}
echo "</body></html>" >> ../JOURNAL/tablo-global.html;	
	#code de fin de tableau, fin fichier html
cd ..			# revient au répertoire supérieur
rm ./dir.txt			# détruit le fichier dir


# on a créé: un fichier-tableau  pour chaque liste d'url, 
# plus un fichier contenant le tableau global