PROBLEMES


Quoique le projet semblait facile au début du semestre, nous avons assez rapidement compris qu'il présentait en fait un nombre important de difficultés, aussi bien du point de vue linguistique qu’informatique. Le projet n’était pas forcement divisé dans des étapes qui n’ont rien à voir l’une avec l’autre, au contraire, pour passer à une nouvelle étape il fallait d'abord avoir réussi la précédente, sinon le résultat obtenu au prochain pas aurait été encore plus mauvais que le précédent, à cause de l'étroite connexion entre toutes les étapes, comme dans une chaine de traitement semi-automatique.

Nous avons rencontré des problèmes « faciles » à résoudre et d'autres plus « complexes », qui nous ont causé une réelle perte de temps puisque la solution n’a voulu se montrer sous aucune forme, et nos efforts acharnées n’ont pas pu nous enlever la frustration qu’on s’est impliqué à fond mais même comme ça, on n’a pas réussi à faire tout ce qu’on imaginait au début du projet.

Comme dans une cercle, chaque fois qu’on résolvait un problème on rencontrait un autre « and so on »….on a pensé à consacrer une partie de notre site aux problèmes.


ENCODAGE


Qui aurait pensé que l’encodage peut nous donner de si gros soucis ? Le travail de notre projet s’est réalisé sur plusieurs langues qui sont des langues latines, avec des caractères accentués de différents types, exception l’arabe.

Le plus grand problème a été le traitement de l’arabe, car déjà l’alphabet n’est plus le latin, puis au fur et à mesure de notre avancement dans le projet on a découvert que l’espagnol nous posait aussi des problèmes car le mot choisi avait un accent sur la lettre « o ». Probablement que ça aurait été mieux de choisir dès le début un mot plus simple, qui ne portait pas d'accent.


On est restées avec un problème d’affichage, pour l’arabe, le texte contient des caractères étranges, mais en échangeant le type d’encodage (Affichage-Encodage de caractères-Option Unicode utf8) sur le navigateur Internet ou Firefox en utf8 on voit bien les caractères arabes au niveau des fichiers contextes texte et html et même Dump en utf8.

De même tous les affichages problématiques d’autres langues, là où il y a le cas, se réssolvent en échangeant le type d’encodage en utf8 au moment de l’affichage dans un navigateur. Comme la partie avec l’encodage peut être si paradoxale d’une page à l’autre, on n’a pas su exactement si le problème était causé en premier par notre script, par nos URLs qui utilisent des conventions de codages différents ou si c’etait à cause des navigateurs Internet et Mozilla.

AUTRES


1. Fichiers contextes espagnol, en spécial le sens "Representacion abstracta", pour les pages qui se trouvent déjà en utf8, on n’a pas les fichiers contextes.txt et contextes.html on les a pour quelques pages puisque le programme cherche bizarrement, le motif pour anglais et français vision| visions. Etant donné ce fait, on a insère parmi les motifs de français et anglais deux formes qui correspond au motif espagnol ; la réponse du programme est que dans la variante finale, celle du site il me trouve en général les motifs en colonne Contextes html mais pas les fichiers de la colonne Contextes.html. On n’a pas réussi à comprendre pourquoi il traite les fichiers de cette manière là. On soupçonne une erreur au niveau de la syntaxe quelque part dans le script, plus précisément dans la partie qui traite les fichiers qui sont déjà en utf8.

2. Une autre erreur se trouve dans le fichier 7 du Sens Vision Religieuse, Arabe, apparait dans les colonnes Dump initial, utf8 et Contextes utf8 en caractères latines et le motif sur la colonne Contextes ne peut pas être trouvé puisque la forme donnée à rechercher est en caractères arabes.

3. Au niveau du fichier 7 Sens Reprezentare, Roumain, l’affichage en colonne Contextes utf8 et Contextes html n’est pas possible ; car l’accès à la page web en question n’est pas permis et le dump a réussi à se faire juste pour le menu déroulant de la page et les titres, mais pas vraiment pour le contenu où on avait les motifs.

4. Il nous restent quelques pages avec charset non-détécté ou sans charset et aussi 3 pages non-aspirées, mais, on s'est rendu compte que pour l'aspiration des pages web, parfois si dans les fichiers texte d'urls il y a un espace, le programme le prend comme un autre url à traiter.

Ce rappel des erreurs nous a fait encore plus réfléchir sur notre parcours, notre travail assidu sur ce projet et à la manière dont on a avancé en termes de savoirs, tout en résolvant des erreurs.