Problèmes Rencontrés



Problèmes Rencontrés

1. Dans le mode de sélection des pages 

Lorsque nous avons commencé la recherche du mot "barrage" sur le web, nous nous sommes rendu compte que  Citeseer et googleprint s'avèrent vite inutiles (pas ou très peu de pages en français).
On décide finalement d'utiliser google comme seul moteur de recherche, en se concentrant sur la variété des contenus, et de rechercher par ailleurs dans le corpus du Monde, afin d'obtenir une plus grande variété de contextes.
Un autre problème rencontré est qu'il est difficile de concilier une recherche extensive d'occurrences du mot barrage et une vérification de la qualité/fiabilité des sources et ces pages.

2. Dans la création d'un tableau synthétique

Dans la création de ce tableau, certaines pages ne correspondent pas au sujet (texte en pdf de Jean Veronis sur le mot barrage!), d'autres liens présentent des erreurs : [photo écran] et [photo écran], et une page présente une erreur dont nous n'arrivons pas à déterminer la source : [photo écran]. (Il semble cependant que cette erreur concerne la structure de la page elle-même, et nous ne pouvons donc pas résoudre ce probème précis.) 

Problème technique :  la création des liens relatifs vers les pages locales a posé problème. Il n'a été trouvé aucune solution interne aux outils bureautiques classiques (Excel, Word, OpenOffice), ni dans Nvu, malgré l'application de toutes les solutions indiquées par les diverses documentations des logiciels (modification de l'hyperlien de base dans 'Fichier'->'propriété' sous Excel, activation de la fonction 'Liens relatifs' dans 'Outils' -> 'Options' -> 'Chargement/Enregistrement', dans OpenOffice calc etc.) La liste a finalement été crée à l'aide de OpenOffice Calc, avec des liens absolus, puis le fichier obtenu a été enregistré au format html. On a ensuite transformé manuellement les liens absolus en liens relatifs dans le code source de la page html, à l'aide de Nvu.

3. Dans le script

Les problèmes de 'portabilité' du script (liés au changement fréquents des codes d'accès au corpus du Monde et au changement de chemins de fichiers selon les ordinateurs) sont résolus par la création de variables : 

la variable $PWD permet de prendre le chemin correspondant à chaque machine

et les variables $user et $password pour l'accès au Monde sont directement modifiées par l'utilisateur.

(Note : certaines versions de wget -versions relativement anciennes- sont incompatibles avec certaines options utilisées par le script :    
        l'option -o (création de fichier log) ne fonctionne pas de la même façon et
        l'option --http-password avait une syntaxe différente dans les versions anciennes (--http-passwd dans les versions antérieures à Wget 1.10).

Pour résoudre les problèmes (en cascade!) liés aux urls avec php ou asp, il est nécessaire de rajouter une extension .txt aux fichiers obtenus avec lynx et egrep : c'est à cette condition qu'ils sont lus sans diffcultés. Il faut donc rajouter une extension .txt aux liens relatifs vers ces pages dans le tableau des liens. L'ajout d'une extension .txt posant elle-même des problèmes (un retour chariot est automatiquement placé entre la variable et la chaîne de caractères '.txt' -cf script), nous avons utilisé la commande translate pour supprimer ces retours chariots. Note : les liens avec asp ou php ne fonctionnent toujours pas, mais cette méthode assure que les pages sont malgré tout correctement traitées par lynx et egrep, et que le plus grand nombre de liens possible fonctionne correctement.


Le principal
problème non résolu est celui des pages internet dont le téléchargement n'a pas fonctionné, mais qui apparaissent malgré tout dans le tableau, avec les liens vers les fichiers qui auraient dû être créés mais de fait n'existent pas. Ce problème pourrait être résolu par un test sur les fichiers, qui permettrait de confirmer qu'ils existent avant d'éditer leur lien dans le tableau.