Python


Je vais baser mon travail sur la page wikipédia de l'entreprise Apple avec le logiciel Python et des expressions régulières. Le but de cet exercice est de nettoyer la page en question et de faire un décompte des différents caractères ainsi que des différents mots.



Étape 1: récupération de code source de la page html choisie.

Étape 2 et 3: création d'un fichier de sortie pour la future page html nettoyée : suppression de balises, d'espaces, etc...

Voici le résultat de la page nettoyée ici

Étape 4 : comptage des mots ainsi que les caractères.

Ci-dessous le fichier de sortie avec les résultats:

Étape 5 : pour finir, création d'un dictionnaire contenant la fréquence des mots de la page .

Voici le résultat

Vous trouverez ici le script entier.