#!/bin/bash
#
# stabilote toutes les pages sous pages/... et
# met le résultat dans result/..
#
# stabiloter signifie encadrer le mot WWW par :
# <span style="background-color: rgb(67, 202, 202);">WWW</span>
#
#
# crée les directories dans result si nécessaire
# puis :
#
# 1.Transforme une page html en texte avec lynx. Démolit tout après la
#   section "Références".
# 2.Recherche [Bb]arrage[s]* dans le fichier texte en conservant
#   3 lignes de contexte (pas terrible .. )
# 3.Balise sommairement le resultat ( <b> </b> )
#
#
# Ex: $1 = /mnt/memory_card/AleksEtYann/projet/pages/google/tir-de-barrage/unepage.html
#
infile=$1
res=$(echo $infile | sed -e "s:/pages/:/result/:g")
mkdir -p $(dirname $res)
outfile=$(dirname $res)/$(basename $infile)
lynx -dump $infile |\
sed -e '/^Références/,$d' |\
egrep --before-context 2 --after-context 1 -i 'barrage' |\
sed -e 's,--,\.\.\.<br/><br/>,g' |\
perl -npe 's![Bb][Aa][Rr][Rr][Aa][Gg][Ee][Ss]?!<b><span style="background-color: rgb(67, 202, 202);\">$&</span></b>!g' |\
awk 'BEGIN {print "<html><body>"} {print} END {print "</body></html>"}' > $outfile
exit