PARTIE 1 : PYTHON

Page HTML choisie

Nous aimons beaucoup les poèmes de Louis Aragon, en particulier les célèbres "yeux d'Elsa"... Nous avons donc décidé d'utiliser cette page pour travailler !

Récupération du code source de la page HTML
Nettoyage de la page HTML
Création d'un fichier en sortie

Consulter la page web nettoyée

Améliorations du processus de nettoyage

On remarque que le texte n'est pas complètement nettoyé. En effet:

  • Il y a un problème d'encodage (par exemple pour les accents).
  • Certaines balises ne sont pas supprimées, par exemple :

Il nous faut donc utiliser de façon plus judicieuse et plus intensive des expressions régulières pour nettoyer le texte. Les suivantes ont été utilisées :

Résultats du nettoyage

Nous pouvons alors obtenir un fichier de sortie mieux corrigé.

Voici le script utilisé.

Comptage

Il est intéressant de comparer, dans cette partie, les différents paramètres (nombre de mots, nombre de caractères,...) avant et après nettoyage.

Voici le script utilisé pour dénombrer les caractères :

Voici celui utilisé pour dénombrer les mots :

Voici le script utilisé pour créer un dictionnaire avec le nombre d'occurrences de chaque mot :

Voici le script utilisé pour lister les hapax :

Nous avons au final ce résultat de décompte :

Il est intéressant de voir la grande réduction du nombre de mots et de caractères avant et après nettoyage.

Le résultat de ce décompte et du décompte des hapax est disponible dans le fichier résultat.

Le script final est disponible.