Script sur Python


Nous devions réaliser un script regroupant plusieurs commande avec Python.
Pour ce faire, j'ai choisi d'utiliser le site internet du Jardin de Balata se situant en Martinique car c'est un de mes sites préférés, de plus, il contient du texte, des images, du javascript et l'encodage est utf-8.

Voici les 5 grandes étape détaillées de mon script Python.

  • Première étape : On récupère le code source de la page HTML



  • Deuxième étape : On nettoie ce code à l'aide d'expressions régulières



  • Troisième étape : On envoie le code source préalablement nettoyé dans un fichier disponible en cliquant ici.



  • Quatrième étape : On réalise des décomptes sur le texte

  • On calcule le nombre de caractères contenus dans la page web


    Ensuite, on calcule le nombre de mots et le nombre de mots différents



    Puis, on peut calculer la fréquence des mots


    Enfin, pour aller plus loin :



  • Cinquième étape : On crée un fichier contenant les résultats des décomptes



Vous avez accès à mon script entier si vous cliquez là !

Et les fichiers infostat et pageweb sont également disponibles ici.