LMSDL180  Programmation et projet encadré

Olga Semenova & Ninon Payen
DESS de Traductique (INALCO)

Le mini-projet "barrage"

 
Objectif: constituer un corpus limité du mot "barrage" sur le Web (50 pages ) avec un échantillon des différents usages du mot dans le contexte.
Définition du problème linguistique: étudier  les différents sens du mot "barrage" représentés sur le Web.

Etape 1.
Recherche du mot barrage sur l'Internet avec l’aide des moteurs de recherche :

Yahoo (http://fr.yahoo.com)

Google (http://www.google.fr)

Mozbot (http://mozbot.fr).

Problèmes rencontrés :   

  Observations :
Tâchés effectuées :
Résultats d'Etape 1:
Etape 2:
Aspiration des pages Web

Outils utilisés:
Commandes d'Unix :

Observations:
Résultats d'Etape 2:

Etape 3:

Création d'un tableau de liens URLs  avec l'aide du
___________________________________________________________________________________________________________
#!/bin/bash
echo "donne nom de fichier contenant les liens http"; #c'est la liste des pages wgettées
read fic; #le programme connait le fichier de liens sous le nom $fic
echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo
echo "<html><head><title>tableau de URLs</title></head><body><table border=\"1\"><th width=\"900\" BGCOLOR=\"#8BA1BA\"><B>URLs Initiales</B></th></tr>" > $tablo; #code de début de tableau
for nom in `cat $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
echo "<tr><td><a href=\"$nom\">$nom</a></td></tr>" >> $tablo; #création d'un tableau à une colonne et autant de lignes qu'il y a d'URL
}
echo "</table></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé, ouvrez-le
___________________________________________________________________________________________________________

Résultat:                                                   tableau d'URLs initiales

URLs Initiales                   1. Barrage Routier
http://www-comm.pac.dfo-mpo.gc.ca/pages/release/p-releas/1995/nr9558_f.htm
http://www.hri.ca/fortherecord2002/bilan2002/vol3/israeltr.htm
http://www.humanite.presse.fr/journal/2002-04-04/2002-04-04-31656
http://www.ledevoir.com/2005/03/05/76299.html?328
http://www.lecourrier.ch/modules.php?op=modload&name=NewsPaper&file=article&sid=1730
http://www.irinnews.org/FrenchReport.asp?
http://www.aloufok.net/article.php3?id_article=797
http://www.horizons-et-debats.ch/25/25_05.htm
http://www.juristessansfrontieres.org/index.cfm?ActiveDoc=lettre/Data/jsf-12.html
http://www.hns-info.net/article.php3?id_article=2737
http://www.lariposte.com/article.php3?id_article=341
URLs Initiales                  2. Barrage Hydraulique
http://www.aude.pref.gouv.fr/ddrm/risque-barr/bar2.html
http://www.bubastis.be/voyage/nubie/nubie04a.html
http://www.ecolo.org/documents/documents_in_french/malpasset/malpasset.htm
http://www.webzinemaker.com/lessalles/
http://fr.wikipedia.org/wiki/Barrage
http://www.amisdelaterre.org/rubrique.php3?id_rubrique=152
http://www.cerclealgerianiste.asso.fr/contenu/economique350.htm
http://www.chaudesaigues.com/pageLibre0001006b.html
http://www.eauxvives.org/rizzanese/
http://www.roanne7.net/article.php3?id_article=102
URLs Initiales                  3. Match de Barrage 
http://www.parlonsfoot.com/archives/2004/09/13/une-touche-dhumour-ne-fait-pas-de-mal
http://www.gazettesports.org/
http://fr.uefa.com/magazine/news/Kind=1024/newsId=119279.html
http://eurosport.tf1.fr/home/pages/v4/l3/s30/e7192/sport_lng3_spo30_evt7192_sto677301.shtml
http://nordpasdecalais.fff.fr/selections/femA/27740.shtml
http://rugby.sports.fr/fr/cmc/rugby/200524/cmc_68087.html
http://www.sport.be/fr/football/diables/
http://www.radiofrance.fr/thematiques/sport/accueil/articles.php?id=245002888&nid=66
http://www.radiosportfm.com/sportfm/fr/article.php3?id_article=272
http://www.lequipe.fr/Rugby/20040401_102437Dev.html
URLs Initiales                  4. Barrage (Musique)
http://www.alain-queguiner.com/180.html
http://fr.wikipedia.org/wiki/Barrage_(musique)
http://fr.wikipedia.org/wiki/Table_d'harmonie
http://www.acoustic-guitars.com/guitares-classiques.php
http://www.cite-musique.fr/francais/musee/actu_recherche/index1.html
http://www.laguitare.com/stephan_sobell2.html
http://guitare.tplm.com/glossaire/home.htm
http://www.ca-schleppy-chaux-de-fonds.ch/828973.html?*session*id*key*=*session*id*val*
http://www.ucl.ac.be/bruxelles/midisenmusique/agenda/DenisSungHo.htm
http://www.yamaha-europe.com/yamaha_europe/france/10_musical_instruments/10_pianos/10_pianos/20_grand_pianos/30_serie_concert/30_CFIII
S/feature/
URLs Initiales                  5. Faire Barrage (opposition)
http://www.lci.fr/news/france/2002/0,,910375-U5WX0lEIDUy,00.html
http://www.humanite.presse.fr/popup_print.php3?id_article=32919
http://www.ipsos.fr/CanalIpsos/articles/1249.asp
http://www.rfi.fr/actufr/articles/063/article_34822.asp
http://www.infobebes.com/htm/actu/article.asp?id_art=3753
http://www.tdg.ch/tghome/toute_l_info_test/dossiers0/elections_cantonales/megroz__28_10_.html
http://www.syndicat-magistrature.org/article/225.html
http://www.lecourrier.ch/modules.php?op=modload&name=NewsPaper&file=article&sid=1281
http://www.licra.org/index.php?section=vie_sections&id=1294
http://www.snj.fr/congres/2002/stagiares_151002.html
http://www.ptb.be/international/article.phtml?section=A3AAABBM&object_id=13312


Etape 4.
Transformation des pages aspirées en  fichiers texte
(lynx  -dump)

Outils:
_____________________________________________________________________________________________________________

#!/bin/bash
echo "donne nom de fichier contenant les pages wgettées";
read fic; #le programme connait le fichier de pages wgettées sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table
border=\"1\">" > $tablo; #code de début de tableau
for nom in `ls $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
lynx -dump ./$fic/$nom > $nom.txt;

echo "<tr>
<td><a href=\"./$fic/$nom\">$nom</a></td>
<td><a href=\"./$nom.txt\">$nom.txt</a></td>
</tr>" >> $tablo;
}

echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le
____________________________________________________________________________________________________________

Résultat:
5 tableaux à deux cellules contenant les liens vers les pages aspirées et les fichiers texte "dump".

Problèmes rencontrés:

Etape 5:
Commande "egrep".

-G : Interprète le motif comme une expression régulière simple. C'est le comportement par défaut.
-E : Interprète le motif comme une expression régulière étendue.
-F : Interprète le motif comme une liste de chaînes figées, séparées par des Sauts de Lignes (NewLine). 
-num :  Les correspondances seront affichées avec num lignes supplémentaires avant et après. Néanmoins, grep n'affichera jamais               une ligne plus d'une fois.

-A num : Afficher num lignes supplémentaires après la ligne correspondante.
-B num : Afficher num lignes supplémentaires avant la ligne correspondante.
-c : Ne pas afficher les résultats normaux. A la place, afficher un compte des lignes correspondantes pour chaque fichier d'entrée.
      Avec l'option -v afficher les nombres de lignes ne correspondant pas au motif.
-e motif : Utiliser le motif indiqué. Ceci permet de protéger les motifs commençant par -.
-f fichier : Lire le motif dans le fichier indiqué.
-i : Ignorer les différences majuscules/minuscules aussi bien dans le motif que dans les fichiers d'entrée. (ceci ne fonctionne pas           avec  les caractères accentués)
-L : Ne pas afficher les résultats normaux. A la place, indiquer le nom des fichiers pour lesquels aucun résultat n'aurait été affiché.
-l : Ne pas afficher les résultats normaux. A la place, indiquer le nom des fichiers pour lesquels des résultats auraient été affiches.
-n : Ajouter à chaque ligne de sortie un préfixe contenant son numéro dans le fichier d'entrée.
-v : Inverser la mise en correspondance, pour sélectionner les lignes ne correspondant pas au motif.

_____________________________________________________________________________________________________________

#!/bin/bash
echo "donne nom de fichier contenant les pages wgettées";
read fic; #le programme connait le fichier de pages wgettées sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table
border=\"1\">" > $tablo; #code de début de tableau
for nom in `ls $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
lynx -dump ./$fic/$nom > $nom.txt;
egrep -i -A 2 -B 2 "barrage" < $nom > $nom.egrep.txt

echo "<tr>
<td><a href=\"./$fic/$nom\">$nom</a></td>
<td><a href=\"./$nom.txt\">$nom.txt</a></td>
<td><a href=\"./$nom.txt.grep\">$nom.txt.grep</a></td>
</tr>" >> $tablo;
}

echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le
_______________________________________________________________________________________________________________

Résultat:
5 tableaux  à trois cellules contenant les liens vers les pages aspirées, les fichiers texte "dump", les fichiers texte "egrep".

Etape 6:
Création d'un tableau synthétique.
______________________________________________________________________________________________________________
#!/bin/bash
echo "donne nom de fichier contenant les pages wgettées"; #c'est la liste des pages wgettées
read fic; #le programme connait le fichier de liens sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table border=\"1\"><TR><TD ALIGN="center" COLSPAN=\"3\" width=\"900\" BGCOLOR=\"#7EA89B\"><B>barrage hydraulique</B></TD></TR><tr><th BGCOLOR=\"#8BA1BA\"><B>Pages Aspirées</B></th><th BGCOLOR=\"#8BA1BA\"><B>Fichiers \"Dump\"</B></th><th BGCOLOR=\"#8BA1BA\"><B>Contexte \"barrage\"</B></th></tr>" > $tablo; #code de début de tableau

for nom in `ls $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
echo $nom
nom_res=`basename $nom | cut -d. -f1`
echo $nom_res

lynx -dump ./$fic/$nom > $nom_res.txt;
egrep -i -A 2 -B 2 "barrage" <$nom_res.txt> $nom_res.egrep;

mv $nom_res.txt ./dump_hydraulique;
mv $nom_res.egrep ./egrep_hydraulique;

echo "<tr>
<td ><a href=\"./$fic/$nom\">$nom</a></td>
<td ><a href=\"./dump_hydraulique/$nom_res.txt\">$nom_res.txt</a></td>
<td ><a href=\"./egrep_hydraulique/$nom_res.egrep\">$nom_res.egrep</a></td>
</tr>" >> $tablo; #création d'un tableau à trois colonnes et autant de lignes qu'il y a d'URL
}
echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le
______________________________________________________________________________________________________________

Résultat:                                            Tableau synthétique des données

barrage routier
Pages Aspirées Fichiers "Dump" Contexte "barrage"
2002-04-04-31656.html 2002-04-04-31656.txt 2002-04-04-31656.egrep
25_05.htm 25_05.txt 25_05.egrep
76299.html@328.html 76299.txt 76299.egrep
article1.php3@id_article=341.html article1.txt article1.egrep
article2.php3@id_article=797.html article2.txt article2.egrep
article3.html.php3@id_article=2737 article3.txt article3.egrep
index.html.html index.txt index.egrep
israeltr.htm israeltr.txt israeltr.egrep
modules.php@op=modload&name=NewsPaper&file=article&sid=1730.html modules.txt modules.egrep
nr9558_f.htm nr9558_f.txt nr9558_f.egrep
barrage hydraulique
Pages Aspirées Fichiers "Dump" Contexte "barrage"
Barrage.html Barrage.txt Barrage.egrep
article.html.php3@id_article=102 article.txt article.egrep
bar2.html bar2.txt bar2.egrep
economique350.htm economique350.txt economique350.egrep
index.html index.txt index.egrep
index.html.1 index.txt index.egrep
malpasset.htm malpasset.txt malpasset.egrep
nubie04a.html nubie04a.txt nubie04a.egrep
pageLibre0001006b.html pageLibre0001006b.txt pageLibre0001006b.egrep
rubrique.php3@id_rubrique=152.html rubrique.txt rubrique.egrep
match de barrage
Pages Aspirées Fichiers "Dump" Contexte "barrage"
20040401_102437Dev.html 20040401_102437Dev.txt 20040401_102437Dev.egrep
27740.html.shtml 27740.txt 27740.egrep
article.php3@id_article=272.html article.txt article.egrep
articles.php@id=245002888&nid=66.html articles.txt articles.egrep
cmc_68087.html cmc_68087.txt cmc_68087.egrep
index.html index.txt index.egrep
index.html.1 index.txt index.egrep
newsId=119279.html newsId=119279.txt newsId=119279.egrep
sport_lng3_spo30_evt7192_sto677301.html.shtml sport_lng3_spo30_evt7192_sto677301.txt sport_lng3_spo30_evt7192_sto677301.egrep
une-touche-dhumour-ne-fait-pas-de-mal.html une-touche-dhumour-ne-fait-pas-de-mal.txt une-touche-dhumour-ne-fait-pas-de-mal.egrep
Opposition
Pages Aspirées Fichiers "Dump" Contexte "barrage"
1249.html.asp 1249.txt 1249.egrep
225.html 225.txt 225.egrep
article1.asp@id_art=3753.html article1.txt article1.egrep
article2.phtml@section=A3AAABBM&object_id=13312.html article2.txt article2.egrep
article3_34822.html.asp article3_34822.txt article3_34822.egrep
index.php@section=vie_sections&id=1294.html index.txt index.egrep
megroz__28_10_.html megroz__28_10_.txt megroz__28_10_.egrep
modules.php@op=modload&name=NewsPaper&file=article&sid=1281.html modules.txt modules.egrep
popup_print.html.php3@id_article=32919 popup_print.txt popup_print.egrep
stagiares_151002.html stagiares_151002.txt stagiares_151002.egrep
barrage (musique)
Pages Aspirées Fichiers "Dump" Contexte "barrage"
180.html 180.txt 180.egrep
828973.html 828973.txt 828973.egrep
Barrage_(musique).html Barrage_(musique).txt Barrage_(musique).egrep
DenisSungHo.htm DenisSungHo.txt DenisSungHo.egrep
Table_d'harmonie.html Table_d'harmonie.txt Table_d'harmonie.egrep
guitares-classiques.html.php guitares-classiques.txt guitares-classiques.egrep
home.htm home.txt home.egrep
index.html index.txt index.egrep
index1.html index1.txt index1.egrep
stephan_sobell2.html stephan_sobell2.txt stephan_sobell2.egrep

 
Etape 7:
Création d'un tableau à 4 colonnes contenant respectivement : l'URL originales, les liens vers les pages locales aspirées, les liens vers les pages locales issues de la commande "dump" et les liens vers les pages locales issues de la commande "egrep". 

___________________________________________________________________________________________________________
#!/bin/bash
echo "donne nom de fichier contenant les liens http"; #c'est la liste des pages à wgetter
read fic; #le programme connait le fichier de liens sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table border=\"1\"><TR><TD ALIGN="center" COLSPAN=\"4\" width=\"900\" BGCOLOR=\"#7EA89B\"><B>Barrage Routier</B></TD></TR><tr><th BGCOLOR=\"#8BA1BA\"><B>URLs Initiales</B></th><th BGCOLOR=\"#8BA1BA\"><B>Pages Aspirées</B></th><th BGCOLOR=\"#8BA1BA\"><B>Fichiers Dumpés</B></th><th BGCOLOR=\"#8BA1BA\"><B>Contexte \"barrage\"</B></th></tr>" > $tablo; #code de début de tableau

i=0;

for lien in `cat $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
    wget -q -O - $lien > ./wget_barrage_routier/$i.html ;
    lynx -dump ./wget_barrage_routier/$i.html > ./dump_barrage_routier/$i.txt;
    egrep -i -A 2 -B 2 "barrage" < ./dump_barrage_routier/$i.txt > ./egrep_barrage_routier/$i.egrep;

    echo "<tr><td><a href=\"$lien\">$lien</a></td><td><a href=\"./wget_barrage_routier/$i.html\">$i.html</a></td>
    <td ><a href=\"./dump_barrage_routier/$i.txt\">$i.txt</a></td>
    <td ><a href=\"./egrep_barrage_routier/$i.egrep\">$i.egrep</a></td>
    </tr>" >> $tablo; #création d'un tableau à trois colonnes et autant de lignes qu'il y a d'URL

    let "i += 1" ;
}
echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le


#wget -q,  --quiet: ne produira pas de message.
#wget -O   --output-document=FIC: stocke les documents dans FIChier.
#let: permet les opérations arithmétiques sur des variables.
#let "i+=1" : Incrémente "i".
________________________________________________________________________________________________________________
_______________________________________________________________________________________________________________
#!/bin/bash
echo "donne nom de fichier contenant les liens http"; #c'est la liste des pages à wgetter
read fic; #le programme connait le fichier de liens sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table border=\"1\"><TR><TD ALIGN="center" COLSPAN=\"4\" width=\"900\" BGCOLOR=\"#7EA89B\"><B>Barrage Hydraulique</B></TD></TR><tr><th BGCOLOR=\"#8BA1BA\"><B>URLs Initiales</B></th><th BGCOLOR=\"#8BA1BA\"><B>Pages Aspirées</B></th><th BGCOLOR=\"#8BA1BA\"><B>Fichiers Dumpés</B></th><th BGCOLOR=\"#8BA1BA\"><B>Contexte \"barrage\"</B></th></tr>" > $tablo; #code de début de tableau

i=0;

for lien in `cat $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
    wget -q -O - $lien > ./wget_hydraulique/$i.html ;
    lynx -dump ./wget_hydraulique/$i.html > ./dump_hydraulique/$i.txt;
    egrep -i -A 2 -B 2 "barrage" < ./dump_hydraulique/$i.txt > ./egrep_hydraulique/$i.egrep;

    echo "<tr><td><a href=\"$lien\">$lien</a></td><td><a href=\"./wget_hydraulique/$i.html\">$i.html</a></td>
    <td ><a href=\"./dump_hydraulique/$i.txt\">$i.txt</a></td>
    <td ><a href=\"./egrep_hydraulique/$i.egrep\">$i.egrep</a></td>
    </tr>" >> $tablo; #création d'un tableau à trois colonnes et autant de lignes qu'il y a d'URL

    let "i += 1" ;
}

echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le


#wget -q,  --quiet: ne produira pas de message.
#wget -O   --output-document=FIC: stocke les documents dans FIChier.
#let: permet les opérations arithmétiques sur des variables.
#let "i+=1" : Incrémente "i".
______________________________________________________________________________________________________________

_______________________________________________________________________________________________________________


#!/bin/bash
echo "donne nom de fichier contenant les liens http"; #c'est la liste des pages à wgetter
read fic; #le programme connait le fichier de liens sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table border=\"1\"><TR><TD ALIGN="center" COLSPAN=\"4\" width=\"900\" BGCOLOR=\"#7EA89B\"><B>Match de Barrage</B></TD></TR><tr><th BGCOLOR=\"#8BA1BA\"><B>URLs Initiales</B></th><th BGCOLOR=\"#8BA1BA\"><B>Pages Aspirées</B></th><th BGCOLOR=\"#8BA1BA\"><B>Fichiers Dumpés</B></th><th BGCOLOR=\"#8BA1BA\"><B>Contexte \"barrage\"</B></th></tr>" > $tablo; #code de début de tableau

i=0;

for lien in `cat $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
    wget -q -O - $lien > ./wget_match_de_barrage/$i.html ;
    lynx -dump ./wget_match_de_barrage/$i.html > ./dump_match_de_barrage/$i.txt;
    egrep -i -A 2 -B 2 "barrage" < ./dump_match_de_barrage/$i.txt > ./egrep_match_de_barrage/$i.egrep;

    echo "<tr><td><a href=\"$lien\">$lien</a></td><td><a href=\"./wget_match_de_barrage/$i.html\">$i.html</a></td>
    <td ><a href=\"./dump_match_de_barrage/$i.txt\">$i.txt</a></td>
    <td ><a href=\"./egrep_match_de_barrage/$i.egrep\">$i.egrep</a></td>
    </tr>" >> $tablo; #création d'un tableau à trois colonnes et autant de lignes qu'il y a d'URL

    let "i += 1" ;
}

echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le


#wget -q,  --quiet: ne produira pas de message.
#wget -O   --output-document=FIC: stocke les documents dans FIChier.
#let: permet les opérations arithmétiques sur des variables.
#let "i+=1" : Incrémente "i".

_____________________________________________________________________________________________________________

______________________________________________________________________________________________________________
#!/bin/bash
echo "donne nom de fichier contenant les liens http"; #c'est la liste des pages à wgetter
read fic; #le programme connait le fichier de liens sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table border=\"1\"><TR><TD ALIGN="center" COLSPAN=\"4\" width=\"900\" BGCOLOR=\"#7EA89B\"><B>Barrage (musique)</B></TD></TR><tr><th BGCOLOR=\"#8BA1BA\"><B>URLs Initiales</B></th><th BGCOLOR=\"#8BA1BA\"><B>Pages Aspirées</B></th><th BGCOLOR=\"#8BA1BA\"><B>Fichiers Dumpés</B></th><th BGCOLOR=\"#8BA1BA\"><B>Contexte \"barrage\"</B></th></tr>" > $tablo; #code de début de tableau

i=0;

for lien in `cat $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
    wget -q -O - $lien > ./wget_musique/$i.html ;
    lynx -dump ./wget_musique/$i.html > ./dump_musique/$i.txt;
    egrep -i -A 2 -B 2 "barrage" < ./dump_musique/$i.txt > ./egrep_musique/$i.egrep;

    echo "<tr><td><a href=\"$lien\">$lien</a></td><td><a href=\"./wget_musique/$i.html\">$i.html</a></td>
    <td ><a href=\"./dump_musique/$i.txt\">$i.txt</a></td>
    <td ><a href=\"./egrep_musique/$i.egrep\">$i.egrep</a></td>
    </tr>" >> $tablo; #création d'un tableau à trois colonnes et autant de lignes qu'il y a d'URL

    let "i += 1" ;
}

echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le


#wget -q,  --quiet: ne produira pas de message.
#wget -O   --output-document=FIC: stocke les documents dans FIChier.
#let: permet les opérations arithmétiques sur des variables.
#let "i+=1" : Incrémente "i".
_____________________________________________________________________________________________________________

_____________________________________________________________________________________________________________

#!/bin/bash
echo "donne nom de fichier contenant les liens http"; #c'est la liste des pages à wgetter
read fic; #le programme connait le fichier de liens sous le nom $fic

echo "donne nom de fichier html où stocker ces liens"; #c'est le tableau de liens à créer
read tablo; #enregistre nom donné par utilisateur dans la variable $tablo

echo "<html><head><title>tableau de liens</title></head><body><table border=\"1\"><TR><TD ALIGN="center" COLSPAN=\"4\" width=\"900\" BGCOLOR=\"#7EA89B\"><B>Faire Barrage (opposition)</B></TD></TR><tr><th BGCOLOR=\"#8BA1BA\"><B>URLs Initiales</B></th><th BGCOLOR=\"#8BA1BA\"><B>Pages Aspirées</B></th><th BGCOLOR=\"#8BA1BA\"><B>Fichiers Dumpés</B></th><th BGCOLOR=\"#8BA1BA\"><B>Contexte \"barrage\"</B></th></tr>" > $tablo; #code de début de tableau

i=0;

for lien in `cat $fic` #$nom est la variable dans laquelle sera stocké chaque lien
{
    wget -q -O - $lien > ./wget_opposition/$i.html ;
    lynx -dump ./wget_opposition/$i.html > ./dump_opposition/$i.txt;
    egrep -i -A 2 -B 2 "barrage" < ./dump_opposition/$i.txt > ./egrep_opposition/$i.egrep;

    echo "<tr><td><a href=\"$lien\">$lien</a></td><td><a href=\"./wget_opposition/$i.html\">$i.html</a></td>
    <td ><a href=\"./dump_opposition/$i.txt\">$i.txt</a></td>
    <td ><a href=\"./egrep_opposition/$i.egrep\">$i.egrep</a></td>
    </tr>" >> $tablo; #création d'un tableau à trois colonnes et autant de lignes qu'il y a d'URL

    let "i += 1" ;
}

echo "</table></body></html>" >> $tablo; #code de fin de tableau
#le fichier dont le nom correspond à la variable tablo est maintenant créé,ouvrez-le


#wget -q,  --quiet: ne produira pas de message.
#wget -O   --output-document=FIC: stocke les documents dans FIChier.
#let: permet les opérations arithmétiques sur des variables.
#let "i+=1" : Incrémente "i".
______________________________________________________________________________________________________________

Problèmes rencontrés:


Résultat final:

Tableau final:

Barrage Routier
URLs Initiales Pages Aspirées Fichiers Dumpés Contexte "barrage"
http://www-comm.pac.dfo-mpo.gc.ca/pages/release/p-releas/1995/nr9558_f.htm 0.html 0.txt 0.egrep
http://www.hri.ca/fortherecord2002/bilan2002/vol3/israeltr.htm 1.html 1.txt 1.egrep
http://www.humanite.presse.fr/journal/2002-04-04/2002-04-04-31656 2.html 2.txt 2.egrep
http://www.ledevoir.com/2005/03/05/76299.html?328 3.html 3.txt 3.egrep
http://www.lecourrier.ch/modules.php?op=modload&name=NewsPaper&file=article&
sid=1730
4.html 4.txt 4.egrep
http://www.aloufok.net/article.php3?id_article=797 5.html 5.txt 5.egrep
http://www.horizons-et-debats.ch/25/25_05.htm 6.html 6.txt 6.egrep
http://www.juristessansfrontieres.org/index.cfm?ActiveDoc=lettre/Data/jsf-12.html 7.html 7.txt 7.egrep
http://www.hns-info.net/article.php3?id_article=2737 8.html 8.txt 8.egrep
http://www.lariposte.com/article.php3?id_article=341 9.html 9.txt 9.egrep
Barrage Hydraulique
URLs Initiales Pages Aspirées Fichiers Dumpés Contexte "barrage"
http://www.aude.pref.gouv.fr/ddrm/risque-barr/bar2.html 0.html 0.txt 0.egrep
http://www.bubastis.be/voyage/nubie/nubie04a.html 1.html 1.txt 1.egrep
http://www.ecolo.org/documents/documents_in_french/malpasset/malpasset.htm 2.html 2.txt 2.egrep
http://www.webzinemaker.com/lessalles/ 3.html 3.txt 3.egrep
http://fr.wikipedia.org/wiki/Barrage 4.html 4.txt 4.egrep
http://www.amisdelaterre.org/rubrique.php3?id_rubrique=152 5.html 5.txt 5.egrep
http://www.cerclealgerianiste.asso.fr/contenu/economique350.htm 6.html 6.txt 6.egrep
http://www.chez.com/infosjura/vouglans.htm 7.html 7.txt 7.egrep
http://www.eauxvives.org/rizzanese/ 8.html 8.txt 8.egrep
http://www.roanne7.net/article.php3?id_article=102 9.html 9.txt 9.egrep
Match de Barrage
URLs Initiales Pages Aspirées Fichiers Dumpés Contexte "barrage"
http://www.lequipe.fr/Football/20051117_083657Dev.html 0.html 0.txt 0.egrep
http://www.bladi.net/coupe-davis-maroc-suisse-en-match-barrage-du-groupe-
mondial.html
1.html 1.txt 1.egrep
http://fr.uefa.com/magazine/news/Kind=1024/newsId=119279.html 2.html 2.txt 2.egrep
http://eurosport.tf1.fr/home/
pages/v4/l3/s30/e7192/sport_lng3_spo30_evt7192_sto677301.shtml
3.html 3.txt 3.egrep
http://nordpasdecalais.fff.fr/selections/femA/27740.shtml 4.html 4.txt 4.egrep
http://rugby.sports.fr/fr/cmc/rugby/200524/cmc_68087.html 5.html 5.txt 5.egrep
http://www.sport.be/fr/football/diables/ 6.html 6.txt 6.egrep
http://www.radiofrance.fr/thematiques/sport/accueil/articles.php?id=245002888&nid=66 7.html 7.txt 7.egrep
http://www.radiosportfm.com/sportfm/fr/article.php3?id_article=272 8.html 8.txt 8.egrep
http://www.lequipe.fr/Rugby/20040401_102437Dev.html 9.html 9.txt 9.egrep
Barrage (musique)
URLs Initiales Pages Aspirées Fichiers Dumpés Contexte "barrage"
http://www.alain-queguiner.com/180.html 0.html 0.txt 0.egrep
http://fr.wikipedia.org/wiki/Barrage_(musique) 1.html 1.txt 1.egrep
http://fr.wikipedia.org/wiki/Table_d'harmonie 2.html 2.txt 2.egrep
http://www.acoustic-guitars.com/guitares-classiques.php 3.html 3.txt 3.egrep
http://www.cite-musique.fr/francais/musee/actu_recherche/index1.html 4.html 4.txt 4.egrep
http://www.laguitare.com/stephan_sobell2.html 5.html 5.txt 5.egrep
http://guitare.tplm.com/glossaire/home.htm 6.html 6.txt 6.egrep
http://www.ca-schleppy-chaux-de-fonds.ch/828973.html?
*session*id*key*=*session*id*val*
7.html 7.txt 7.egrep
http://www.ucl.ac.be/bruxelles/midisenmusique/agenda/DenisSungHo.htm 8.html 8.txt 8.egrep
http://www.yamaha-europe.com/yamaha_europe/france/
10_musical_instruments/10_pianos/10_pianos/20_grand_pianos/30_serie
_concert/30_CFIIIS/feature/
9.html 9.txt 9.egrep
Faire Barrage (opposition)
URLs Initiales Pages Aspirées Fichiers Dumpés Contexte "barrage"
http://www.april.org/articles/communiques/pr-20050401.html 0.html 0.txt 0.egrep
http://www.humanite.presse.fr/popup_print.php3?id_article=32919 1.html 1.txt 1.egrep
http://www.aful.org/presse/liberte-partage.html 2.html 2.txt 2.egrep
http://www.gros.org/pagesgros/regimes.html 3.html 3.txt 3.egrep
http://www.tdg.ch/tghome/toute_l_info_test/dossiers0/elections_cantonales/
megroz__28_10_.html
4.html 4.txt 4.egrep
http://www.syndicat-magistrature.org/article/225.html 5.html 5.txt 5.egrep
http://www.lecourrier.ch/modules.php?op=modload&name=NewsPaper&
file=article&sid=1281
6.html 6.txt 6.egrep
http://www.licra.org/index.php?section=vie_sections&id=1294 7.html 7.txt 7.egrep
http://www.snj.fr/congres/2002/stagiares_151002.html 8.html 8.txt 8.egrep
http://www.acrimed.org/article2036.html 9.html 9.txt 9.egrep


Conclusion:

La réalisation du  mini projet "barrage" donne un bon exemple de ce que peut être le travail de recueil de corpus sur un thème donné sur Internet, et d'analyse de ces corpus. Dans le cas présent, nous avons du sélectionner sur le  web 50 pages contenant le mot "barrage" utlisé dans différents sens qu'il peut avoir en français.( Nous avons choisi de représenter 5 sens du mot barrage de de récolter pour chacun 10 pages web.) Nous avons créé 1 fichier texte par sens retenu pour y stocker les adresses des pages.  Puis, en utilisant différents outils qui nous avaient été présentés pour le traitement des pages web, nous avons réalisé les tâches suivantes pour chaque sens de "barrage":

  1. Aspiration des pages web sélectionnées avec  wget  -i
  2. Mise au format texte des pages html aspirées avec lynx - dump
  3. Recherche dans les fichiers texte obtenus des occurrences du mot "barrage" dans différents contextes avec egrep -i -A 2 -B 2 "barrage"
Afin d'automatiser ces tâches, nous nous sommes lancées dans la rédaction d'un script bash devant nous permettre de réaliser en une fois toutes les étapes du traitement des pages web et de consigner les résultats dans un tableau à quatre colonnes contenant des liens hypertexte vers respectivement: les pages web originales, les fichiers html contenant les pages aspirées, les fichiers texte issus de Lynx et les fichiers texte traités avec Egrep.
La rédaction de ce script s'est avérée à la fois très difficile et très satisfaisante. Nous avons dans un premier temps été freinées par notre manque de connaissance sur le langage "bash", puis grâce au script donné en cours, à l'aide des professeurs et de manuels en ligne, nous avons réussi à nous familiariser avec ce langage et à écrire un script satisfaisant.
Le résultat obtenu se présente sous la forme du tableau ci-dessus.
Ainsi, malgré sa difficulté apparente pour des novices, ce travail s'est révélé très enrichissant  et en nous forçant à trouver des solutions, il nous a permis de sumonter l'incompréhension que l'on pouvait avoir face un langage nouveau.