Réalisation d'un script en Python

Le script que nous allons réaliser effectuera 5 traitements différents sur le contenu d'une page web quelconque. La page web récupérée lors de ce tutoriel est celle du département de Linguistique de l'université Sorbonne Nouvelle Paris 3. Une version entière du script est téléchargeable en bas de cette page.

Les 5 fonctions du script:

  • Récupérer le code source d'une page html
  • Nettoyer le code source à l'aide d'expressions régulières
  • Générer un fichier de résultat contenant le code source nettoyé
  • Opérer des décomptes sur le texte (caractères, mots, phrases)
  • Générer un fichier de résultat contenant les résultats des décomptes

1) Récupérer le code source d'une page html

2) Nettoyer le code source à l'aide d'expressions régulières

3) Générer un fichier de résultat contenant le code source nettoyé

4) Opérer des décomptes sur le texte (caractères, mots, phrases)

5) Générer un fichier de résultat contenant les résultats des décomptes


Script entier