Python

Nous devons récupérer une page web et la nettoyer à l'aide d'expressions régulières, ensuite faire des décomptes sur le texte

Voici un petit aperçu des étapes pour arriver au résultat...


I) récupérer le code source d'une page web et le nettoyer


Nous avons choisi un article sur la page www.lemonde.fr

pour voir le code source de la page, cliquez-ici

i. Récupérer la page dans un fichier .txt

ii. Mise en forme, nettoyage des balises

iii. Gestion des informations concernant le texte

iiii. Gestion des fichiers textes enregistrés

les copies d'écran ne sont malheureusement pas très bien cadrées par rapport à la page, veuillez nous en excuser...



II) Gérer les décomptes sur le fichier obtenu

Vous pouvez télécharger le fichier infostat ici

Pour visulaiser la page nettoyée, cliquez-ici

Et le script complet de python se trouve par ici !

Merci de votre visite, bonnes vacances et à bientôt !