Travail attendu pour le devoir final

    Le script que j'ai mis au point utilise une page web présentant poèmes et correspondances d'Arthur Rimbaud : elle contient majoritairement du texte, sans images, et propose donc beaucoup de "matière" pour faire des statistiques des "mots" de la page.

    Sur cette page de mon site, je vais présenter le script en 5 étapes. De manière schématique, il s'organise ainsi :

organigramme

Récupération du code (1)

etape1

    Le script récupère le code HTML de la page. Mais on ne peut procéder tout de suite aux statistiques puisque ce code contient trop de balises et autres traces de code HTML :

codepage

    La seconde étape est donc un "nettoyage" du code (2) :

nettoyage

suivi de la création d'un fichier de résultat (3).

    Le résultat est donc plus propre, il contient le texte lu quand on on ouvre la page dans un navigateur (sans les dates et autres chiffres, non pertinents pour l'analyse) :

codenettoye

Faire des décomptes sur le texte (4)

    Ce fichier est prêt pour les statistiques. Le script commenté est téléchargeable ici. Il détaille toutes les étapes.

Créer un fichier de résultats des statistiques (5)

    Le fichier de résultats créé pendant l'exécution du script est disponible .