Journal de bord
 
       
Première étape

Nous avons sélectionné le mot "Baguette" car il était intéressant de voir ces différents  sens.
Nous avons pris 50 urls contenant ce mot ou son équivalent en japonais.
En français, le mot baguette signifie à la fois notre bon pain français,
les fameuses baguettes japonaises, la baguette du chef d'orchestre, la baguette magique, les baguettes de musique et la baguette du coudrier.
Et nous avons cherché pour chacun de ces sens l'équivalent en japonais.
Puis, nous les avons regroupés en 6 catégories:
-> le pain en français
-> le pain en japonais
-> les différents sens du mot "baguette" avec wikipedia en français
-> les différents sens de baguette avec wikipedia en japonais
-> les autres sens qui existent en français (pages françaises)
-> les autres sens qui existent en japonais (pages japonaises)
 
Deuxième étape

Nous avons utilisé la commande wget afin de stocker les pages aspirées. NOUS AVONS REUSSI!
Nous avons obtenu les 6 tableaux contenant chacun les pages aspirées localement.
Troisièmes étape

Grâce à la commande Lynx, nous avons voulu extraire le texte uniquement pour transformer les fichiers HTML en fichiers textes.
Cette manipulatuion a marché pour les pages en français mais pas pour les pages en japonais. Il y avait un problème de codage! Cygwin ne reconnaissait pas le japonais (UTF-8). Donc nous avons essayé de faire marcher notre programme sous LINUX. Il persistait malgré tout des problèmes.

Quatrième étape

Nous ne pouvions donc pas passer à la prochaine étape, celle où nous devions extraire le contexte.
En effet, comme la commande lynx n'a pu "dumper" les pages aspirées correctement, la commande egrep ne pouvait fonctionner.

 Cinquième étape
La cinquième étape consiste à utiliser la commande egrep. Celle-ci permet de chercher les lignes contenant le mot en question. Nous l'avons donc executée avec succès pour les pages en français. Cependant, pour les pages en japonais, rien n'apparaissait dans les fichiers.

Sixième étape

Nous avons vu en cours que pour les problèmes de codage, nous pouvions installer minigrepmultilingue sous cygwin. Nous avons réussi à l'installer avec succès à l'aide du site de nos camarades. Avec les archives mises en ligne, nous avons procédé au test qui lui a marché! Donc le programme est bien installé et fonctionne correctement.
Nous avons réessayé de l'exécuter mais toujours pas de résultat.
Nous avons conclue que le problème survenait au niveau de l'exécution de la commande lynx.
Nous avons donc sollicité l'aide de nos professeurs afin de résoudre notre problème.
Nous avons decidé de passer sur l'environnement UNIX qui est parfaitement compatible avec le japonais. Nous travaillons afin de résoudre ce dernier problème.
A l'aide d'un de nos camarade, nous avons pu aspirer les pages correctement.
Sauf que pour la première ligne de chaque tableau, il y avait plusieurs caractères qui se rajoutaient devant l'adresse URL. La commande ne marchait donc pas.

TABLEAU

(lien vers le tableau)

Fichier urlautrefr.txt
http://www.chen.qc.ca/baguettes.htm PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://www.ilu.be/wiki/Manger_avec_des_baguettes PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://www.leblogauto.com/2007/08/japon-le-biocarburant-a-la-baguette.html PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://fr.wikipedia.org/wiki/Baguette_magique PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://fr.wikipedia.org/wiki/Baguette_magique_(Harry_Potter) PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://magiecorse.free.fr/baguettemagique/ PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://grimoiredelili.over-blog.com/article-284244.html PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://www.rituel-fr.com/Baguette.php PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://www.cinereplicas.com/web/baguettes_harry_potter_noblecollection.php PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://www.arbredor.com/titres/baguette.html PAGE ASPIREE PAGE DUMP PAGE CONTEXTE
http://www.tambourdegille.be/accessoires.htm PAGE ASPIREE PAGE DUMP PAGE CONTEXTE

   Septième étape

Création du site internet. Nous avons découvert comment créer un site internet et à utliser le programme Nvu.
Une nouvelle tentative avec LINUX mais en vain. Nous n'arrivons toujours pas à extraire les motifs. Nous avons donc décidé de traiter séparément les URLS en français et ceux en japonais. Nous avons utilisé e-grep pour les URLS en français et ça marche! Concernant nos chers URLS en japonais nous avons opté pour le mini-grep multilingue mais pour ce dernier il reste à regler quelques problèmes qui resteront un mystère...                          
Dernière ligne droite, nous sommes retournés à la fac pour faire tourner le programme mais en vain. Nous avons donc décidé de traiter d'un côté les pages en français et de l'autre les pages en japonais en utilisant les moyens du bord.
Après un petit tour de passe-passe, nous nous sommes raprochés au plus près du but fixé au départ.
Cependant, il y a des pages manquantes ou bien mal aspirées à cause du codage du japonais qui n'est pas en UTF8 ou encore le site internet en question n'existe plus.
Tous les documents concernant les pages en français se trouvent dans le dossier PROJET-MASTER et ceux en japonais se trouvent dans projetlinuxj. Ceux qui n'ont pas marchés comme le tableau qui figure plus haut, se trouvent dans le dossier projetlinux.