Travail attendu pour le devoir final

Le travail sur Python s'est surtout concentré sur l'application de fonctions sur le texte d'une page Web que l'on a choisi à un moment pour travailler dessus. Pour ma part, j'ai choisi la page Web suivante: http://www.manawyrd.fr/unenouvelleaube.php qui, en plus de contenir beaucoup de texte et peu de liens ou d'images, présentait l'avantage de posséder un grand nombre de caractères spéciaux, ce qui m'a donné une difficulté supplémentaire pour faire l'exercice. Malheureusement, le site décrit par cette page Web étant en pleine évolution, la présentation a été modifiée il y a peu, et je n'a pas pu réactualiser mes données. Cependant, ça n'a pas réellement d'impact sur le fichier que j'ai fait puisque seul du texte et un bout de code ont été rajoutés.

Voici donc ci-dessous le code qui m'a permis de:

  • Récupérer le texte de la page Web choisie
  • L'enregistrer dans un fichier texte pour travailler dessus par la suite.
  • Le nettoyer de toutes les balises HTML, remplacer les symboles spéciaux jusque là décrit par &aecute par exemple par leur caractère correspondant, à l'aide d'expressions régulières.
  • Effectuer des calculs sur le texte: compter le nombre de mots, de caractères, de phrases...)
  • Calculer des moyennes (le nombre de caractère par mot, de mot par phrase...)
  • Etablir un dictionnaire des mots employés pour en observer les occurences.

Comme dit un peu plus haut, si j'ai choisi ce texte, c'est tout d'abord parce que je l'aime bien, mais aussi, et surtout, parce qu'il présentait de nombreux caractères spéciaux, peu courant dans les autres textes. De plus, il y avait peu de liens externes, et peu d'images qui aurait pu le rendre confus. La principale difficultée que j'ai cependant rencontrée concerne la fin du texte qui est en réalité un code, javascript il me semble, que je n'ai pas vraiment su comment gérer.

Voilà donc le code: ici

Et le voici en couleur: