Programmation avec Python

  • Choix du site :
  • Nous avons choisi de traiter une page web sur les arbres fruitiers, tout simplement pour faire un clin d'oeil à la partie vocabulaire du dictionnaire XML. Cette page est de type charset, elle est relativement simple bien que nous ayons eu des difficultés à nettoyer certaines balises.

  • Les 5 grandes étapes de notre programme sont les suivantes:
  • - Récupération du code source d'une page html

    - Nettoyage du code source de la page html à l'aide d'expressions régulières

    - Création d'un fichier de résultat contenant le code source nettoyé

    - Opération de décomptes sur le texte (caractères et mots)

    - Création d'un fichier contenant les résultats des décomptes

    Pour accéder à notre script Python, cliquez ici.


    Etape 1: Récupération du code source d'une page html

    Etape 2: Nettoyage du code source de la page html à l'aide d'expressions régulières

    Etape 3: Création d'un fichier de résultat contenant le code source nettoyé

    Cliquez ici pour accéder à la page nettoyée.

    Cette opération est possible grâce aux fonctions suivantes:

    Etape 4: Opération de décomptes sur le texte (caractères et mots)

    Etape 5: Création d'un fichier contenant les résultats des décomptes

    Cliquez ici pour accéder aux résultats du décompte.