PYTHON

Durant les premiers cours d'informatique, nous avons travaillé sur python, un langage de programmation. Nous avons notamment appris à récupérer une page web et à la nettoyer à partir d'expressions régulières.

    Mon script est téléchargeable ici

    ETAPE 1:Chargement des bibliothèques nécessaires

    Urllib veut dire "url library". cette bibliothèque contient les commandes nécessaires pour intéragir avec internet.

    ETAPE 2: Récupération de la page web et décodage

    Décodage avec "ISO-8859-1": c'est un ensemble de caractères communs aux langues latines et germaniques.

    ETAPE 3: Nettoyage des balises

    Ici, on nettoie les balises à l'aide d'expressions régulières. C'est un moyen pratique de repérer des mots dans un texte. Ici, on remplace des portions de texte par "bonjour"

    ETAPE 4: Préparation de sortie

    Encodage du texte avec "utf-8": n'importe quel caractère est pris en compte.

    ETAPE 5: Ouverture du fichier et écriture

    Ici, on ouvre la page puis on écrit dans le fichier cible.

    ETAPE 6: Fermeture du fichier

    ETAPE 7: Ouverture d'un nouveau fichier

    Ici, on ouvre la page "infostat" pour y écrire dedans.

    ETAPE 8:Ecriture du nombre de caractères dans le fichier infostat.

    ETAPE 9: Découpage du texte en mots.

    ETAPE 10: Création d'une liste de mots et impression de celle ci.

    ETAPE 11: Ecriture du nombre de mots dans le fichier infostat.

    Ici, on écrit le nombre de mots de la page web dans le fichier infostat.txt

    ETAPE 12: Fermeture du fichier infostat.

    Mon fichier infostat est téléchargeable ici

    Mon fichier pageweb est téléchargeable ici