Regexp et Python

La toute première partie des exercices vus en TD d'informatique (pendant tout le premier semestre) concerne donc le langage Python et les expressions régulières.

Je vous vois marmonner...
Des questions peut-être? Oui? Non? Ah? Oh regexp! C'est le petit nom qu'on donne aux expressions régulières, ou regular expression puisque l'anglais domine le domaine. Pour ceux à qui cela ne dit rien, j'ajouterai que les expressions régulières, ou expressions rationnelles, sont en informatique des chaînes de caractères que l’on appelle parfois des motifs et qui décrivent des ensembles de chaînes de caractères possibles selon une syntaxe précise. Alors, merci qui? Merci Wiki!

Quant à Python, il s'agit d'un langage de programmation dont le nom est tiré des célèbres Monty Python!

(vous aussi vous avez pensé au serpent?)

Pour cette partie, il fallait suivre pas à pas des wikis très complets sur Agora (portail de Paris III), faire les exercices indiqués, et comme le travail produit ne devait être que dans un fichier unique, je ne vais pas récapituler les énoncés et chacune des étapes du travail sur Python. Cependant, voici les grands axes que nous avons abordés:

  • Extraction du code d'une page web
  • Nettoyage de la page (balises)
  • Extraction de différents éléments du contenu de la page (titre, mots, liens...)
  • Fréquences des mots
  • Travail sur les catégories syntaxiques

En image et en plus ordonné ça donne ceci:

Et tout ça en utilisant des tas de commandes plus compliquées les unes que les autres mais permettant de faire des listes, de mettre des couleurs et de faire des tableaux par exemple!

Si ça vous intéresse, ou si vous êtes obligé de le faire pour me noter, vous pouvez vous télécharger mon travail grâce aux liens suivants:

Il est possible d'y trouver des choses un peu étranges, dues au fait que la page que j'ai choisie d'étudier a été modifiée depuis la fois où j'ai travaillé dessus. J'ai donc changé certaines choses en conséquence, mais il se peut qu'il reste des incohérences.