Travail sur le logiciel Python

  • Les principales étapes de récupération d'une page web sont :
    • Récupérer le code source d'une page html
    • Nettoyer le code source à l'aide d'expressions régulières
    • Générer un fichier de résultat contenant le code source nettoyé
    • Opérer des décomptes sur le texte (caractères, mots, phrases)
    • Générer un fichier de résultat contenant les résultats des décomptes
  • Voici le schéma de nos résultats
  • a) Récupération du code html brut

    b) Lecture de la page et décodage du code source

    c) Nettoyage des balises

    d) Préparation de la sortie

    e) Ouverture et écriture dans le fichier cible

    Pour télécharger le fichier pageweb.txt

    cliquez ici

    f) Calcul du nombre de caractères

    g) Calcul de la fréquence de chaque mot

    h) Affichage de la liste de mot dans le fichier cible

    Pour télécharger le fichier infostat.txt

    cliquez ici

    RESSOURCES

    Lien de la page web

    cliquez ici

    Pour télécharger le script en entier

    cliquez ici

      Description des fonctions

      Nous allons à présent détailler l'utilisation de quelques unes des fonctions utilisées dans notre script.

      Les statements if...else :

      Ces statements permettent de créer des boucles de condition : si (if) la première condition est remplie, et (else) il fait cela.

      Précision concernant python, cette partie a été réalisé avec une autre étudiante