Partie 1 : Python

Il s'agit d'une initiation au traitement de corpus venant du web, en utilisant le langage Python et les expressions régulières.
Nous avons utilisés pour notre étude la page d'un article du journal le monde:"la filière nucléraire dans la tourmente politique."  Qui n'est plus disponible,mais nous vous laissons ce lien avec la trace de cet article qui se trouvais sur une page internet la voici:cette page

1) Dans un premier temps, on indique le répertoire où est installé Python,puis l'encodage à utiliser. On importe également les modules dont on aura besoin plus tard dans le programme.


Le programme doit donc se connecter à notre page url de référence :



2) Ensuite, le contenu textuel de la page est copié dans un fichier appelé pageweb.txt, afin de pouvoir effectuer des analyses dessus. Pour n'extraire que le texte, nous procédons à un nettoyage des balises à l'aide de la fonction "sub" de la librairie "re" (expressions régulières).

#création et ouverture du fichier



#mission nettoyage


 #écriture dans notre fichier cible:




3) Pendant que nous manipulions python,nous avons créer le fichier infostat.txt, qui doit contenir des statistiques sur le texte de la page (nombre de caractères, nombre de mots et nombre de mots différents) :



4) La ligne suivante sert à comptabiliser le nombre de caractères contenus dans le fichier pageweb.txt:



5) Nous avons ensuite utiliser successivement les fonctions "re.compile" et "expr.split" afin de découper les mots dans le fichier et de les placer dans une liste. Nous avons pu alors inscrire dans le fichier infostat le nombre de mots (taille de la liste)et le nombre de mots différents contenus dans le fichier, puis la liste des mots (classée par ordre alphabétique grâce à "sorted").


6)Puis le programme va créer en quelque sorte "un dictionnaire de fréquence",contenant des couples de (mots,fréquence)
# création d'un dico de fréquence


• L'analyse est terminée. On peut donc fermer les fichiers pageweb.txt et infostat.

Cliquez ici pour ouvrir le fichier pageweb.txt
Cliquez ici pour ouvrir le script écrit en Python (format py).