Partie 1 : Python

Il s'agit d'une initiation au traitement de corpus venant du web, en utilisant le langage Python et les expressions régulières.
Nous utiliserons pour notre étude la page des Masters du site de l'ILPGA.

• Premièrement, on indique le répertoire où est installé Python, ainsi que l'encodage à utiliser. On importe également les modules dont on aura besoin plus tard dans le programme.


• Tout d'abord, le programme doit se connecter à la page :


• Ensuite, le contenu textuel de la page est copié dans un fichier appelé ilpga_masters.txt, afin de pouvoir effectuer des analyses ultérieures dessus. Pour n'extraire que le texte, nous procédons à un nettoyage des balises à l'aide de la fonction "sub" de la librairie "re" (expressions régulières).


• Nous créons le fichier infostat.txt, qui est destiné à contenir des statistiques sur le texte de la page (nombre de caractères, nombre de mots et nombre de mots différents) :


• La ligne suivante sert à comptabiliser le nombre de caractères contenus dans le fichier ilpga_masters.


• Nous utilisons ensuite successivement les fonctions "re.compile" et "expr.split" afin de découper les mots dans le fichier et de les placer dans une liste. Nous pouvons alors inscrire dans le fichier infostat le nombre de mots (taille de la liste) et le nombre de mots différents contenus dans le fichier ilpga_masters, puis la liste des mots (classée par ordre akphabétique grâce à "sorted").


• Le programme va ici créer un "dictionnaire de fréquence", contenant des couples (mot, fréquence).


• L'analyse est terminée. On peut donc fermer les fichiers ilpga_masters et infostat.


Cliquez ici pour ouvrir le fichier ilpga_masters (format txt).
Cliquez ici pour ouvrir le script écrit en Python (format py).
Cliquez ici pour ouvrir le fichier infostat (format txt).