Nos travaux avec le logiciel Python

  • Il existe cinq étapes pour récupérer une page web avec python :
    • Récupérer le code source d'une page html
    • Nettoyer le code source à l'aide d'expressions régulières
    • Générer un fichier de résultat contenant le code source nettoyé
    • Opérer des décomptes sur le texte (caractères, mots, phrases)
    • Générer un fichier de résultat contenant les résultats des décomptes
  • Voici le schéma de nos résultats
  • 1) Récupération du code html brut

    2) Lecture de la page et décodage du code source

    3) Nettoyage des balises

    4) Préparation de la sortie

    5) Ouverture et écriture dans le fichier cible

    Pour télécharger le fichier pageweb.txt

    cliquez ici

    Autres commandes de python :

    Calcul du nombre de caractères

    Calcul de la fréquence de chaque mot

    Affichage de la liste de mot dans le fichier cible

    Pour télécharger le fichier infostat.txt

    > cliquez ici

    RESSOURCES

    Lien de la page web

    cliquez ici

    Pour télécharger le script en entier

    cliquez ici

    Précision : les images de cette partie ont été faites en collaboration avec deux autres élèves de mon TD (images des commandes de python et schéma des résultats).