Méthode

Les pré requis pour exécuter les programmes :

Voici ce que fait le programme principale:

Traiter l'URL: "aspirer" la page html associée à l'URL avec la commande curl. faire un DUMP du contenu de la page html, extraire les contextes du motif, extraire l’index de mot hiérarchique, extraire l’index de bigramme. Pour certaines langues comme le chinois, il ne faut pas oublier de segmenter le texte. Il faut aussi que les textes soient encodés en UTF-8, il faut donc prévoir des traitements dans le cas contraire.
Écrire dans le tableau final: le numéro de l'URL, le lien de l'URL, le contexte, l’index hiérarchique, l’index de bigramme
Incrémenter le compteur d'URL

On a également fait deux autres petits programmes : un permettant de concaténer nos textes, et un autre pour supprimer les chevrons restants. S’il y avait encore du nettoyage à faire, ce dernier à été fait à la main grâce à la fonction rechercher/remplacer de notepad++. Lien du programme de Kristen, Lien du programme d'Alexandra, lien du programme pour la concaténation, lien du programme pour la suppression des chevrons

Pour l'analyse, nous avons utilisé:

Parents hélicoptères