Méthode
Les pré requis pour exécuter les programmes :
- l'environnement unix, avec la machine virtuelle Ubuntu
- lynx, qui nous permet de récupérer le contenu des URLs
- minigrep, qui permet d’extraire le contenu de nos motifs
- jieaba, un segmenteur python pour le chinois
Voici ce que fait le programme principale:
- Pour chaque fichier d'URLs, on va créer un nouveau tableau avec un titre
- Initialiser le compteur d'URLS
- Tant que le programme lit le fichier d'URL ligne par ligne:
- Traiter l'URL: "aspirer" la page html associée à l'URL avec la commande curl. faire un DUMP du contenu de la page html, extraire les contextes du motif, extraire l’index de mot hiérarchique, extraire l’index de bigramme. Pour certaines langues comme le chinois, il ne faut pas oublier de segmenter le texte. Il faut aussi que les textes soient encodés en UTF-8, il faut donc prévoir des traitements dans le cas contraire.
- Écrire dans le tableau final: le numéro de l'URL, le lien de l'URL, le contexte, l’index hiérarchique, l’index de bigramme
- Incrémenter le compteur d'URL
On a également fait deux autres petits programmes : un permettant de concaténer nos textes, et un autre pour supprimer les chevrons restants. S’il y avait encore du nettoyage à faire, ce dernier à été fait à la main grâce à la fonction rechercher/remplacer de notepad++. Lien du programme de Kristen, Lien du programme d'Alexandra, lien du programme pour la concaténation, lien du programme pour la suppression des chevrons
Pour l'analyse, nous avons utilisé: