Réalisation du script avec Python

Nous avons choisi une page web simple, encodée en html ne contenant pas de javascript. Cependant, nous avons rencontré certaines difficultés, comme la suppression des codes des images.

Pour réaliser le travail attendu, nous sommes passé par cinq grandes étapes :

  • Première étape : Récupération de la page web

  • Deuxième étape : Nettoyage de la page web à l'aide d'expressions régulières
    • Nettoyage des balises html sur la page

    • Suppression des espaces en trop sur la page

  • Troisième étape : Création d'un fichier de résultats
  • Quatrième étape : Effectuer des statistiques sur le texte
    • Calcul du nombre de caracteres

    • Calcul du nombre de mots

    • Calcul du nombre de mots differents


    • Calcul de la fréquence de chaque mot

    • Pour aller plus loin : tri alphabétique de la liste de mots

  • Cinquième étape : Création d'un fichier pour afficher ces statistiques
  • Cliquez ici pour télécharger le script entier

    Cliquez ici pour voir le fichier du texte de la page web nettoyé

    Cliquez ici pour voir le fichier contenant les résultats des statistiques