Script principal

Le script a été écrit et corrigé au fur et à mesure du semestre.

Voici le script que vous pouvez visualiser en entier :

Difficultés

Pour commencer, notre environnement de travail n’est pas le même pour tous les trois. Yuchen travaille sur Cygwin et Clémence et moi sur Ubuntu. Cela n’a posé qu’un problème lors de l’utilisation du programme minigrepmultilingue. Ce programme permet de trouver un motif dans les textes sur lesquels nous travaillons, en l’occurrence notre motif "chanson française" en français, allemand et chinois. Il était assez facile de l’installer sur Ubuntu mais nous a posé quelques difficultés sur Cygwin. Notamment parce qu’il a fallu installer une bibliothèque Perl pour Cygwin et faire quelques manipulations en plus pour que le programme fonctionne. Après quelques échanges avec notre professeur et d’autres étudiants qui avaient le même problème, nous avons réussi à le faire marcher!

Cependant minigrep est un programme que nous avons utilisé bien après. D’abord, et ce fut sûrement notre plus gros problème au départ, nous avons rencontré des problèmes d’encodage. Plus précisément, deux problèmes. Nous avons rencontré du faux chinois, c’est-à-dire que les pages aspirées puis dumpées puis converties nous rendaient des caractères qui ressemblaient à du chinois (pour Clémence et moi) mais qui n’en étaient pas. La solution nous a été donnée par une de nos professeures, qui nous a conseillé de convertir d’abord la page aspirée puis de dumper cette nouvelle page convertie. Ensuite pour les pages que l’on n'arrivait pas à aspirer malgré l’encodage présent dans la page, il a suffit de rajouter des critères dans l’expression régulière qui recherchait les encodages. N'hésitez pas à consulter notre blog pour voir les différentes étapes achevées ainsi que les difficultés surmontées.

Nous avons aussi trouvé des modifications de nos pages internet. C’est assez logique quand on y pense car nous avons choisi de travailler sur des articles de blogs et les articles sont susceptibles de changer de sujet. Certains blogs étaient même supprimés parfois. Notre dernière difficulté fut celle de la segmentation du chinois. Cela nous a paru au départ très compliqué mais nous avons finalement trouvé le stanford-segmenter. Son installation est facile et son utilisation aussi, il suffit de suivre le "read me" qui se trouve dans les documents fournis par l’archive décompressée. Nous avons pu l’installer facilement sur Ubuntu et Cygwin ce qui est plutôt pratique. Nous avons dû appliquer l’étape de la segmentation à toutes les langues et nous nous sommes interrogés si cela n’allait pas faire des choses bizarres avec l’allemand et le français. Mais non pas de problème à ce niveau là !

Au final, nous avons réussi à résoudre tous les problèmes rencontrés. Tout est bien qui finit bien !