Partie 1 : Python

Réaliser un script en python pour récupérer et parser une page internet. Vous pouvez trouver notre fichier .py ici

Vous pouvez également trouver notre fichier contenant notre poème récupéré et parsé, et le fichier contenant les informations concernant ce poème.

Quelles sont les 5 grandes étapes de votre programme ?

  1. Récupération de la page web
  2. Troncation puis nettoyage du poème
  3. Ecriture dans un fichier
  4. Calcul de stats sur le poème et écriture dans un fichier
  5. Fabrication du dictionnaire de fréquence et écriture de stats dans le fichier

Expliquez votre choix de page web nettoyé. Indiquez les caractéristiques de la page choisie (encoding, charset, javascript). Donnez des exemples de difficultés de traitement de votre page web

Nous avons choisi cette page, car c'est là que nous avons trouvé le poème que nous voulions de Jacques Prévert. Cette page est en UTF-8, mais certains caractères (notamment l'apostrophe), étaient dans un codage HTML unicode un peu étrange.
A cause de celà, nous avons éprouvé de grandes diffucultés pour encoder le poème ainsi récupéré en UTF-8 et nous avons donc été malheureusement obligées de traîter toute l'information dans notre script en format iso-8859-1.
Cependant, comme nous tronquons la page pour ne garder que le poème, le javascript ne nous a posé aucun souci.