#!/usr/bin/python

# -*- coding: utf8 -*-

import urllib, re, codecs
#pour importer les librairies de commandes et de programmes
url = urllib.urlopen(http://www.cieletespace.fr/node/9984)
#pour récuperer le code source de la page html, on lui assigne une variable
codehtml = url.read()
#on assigne à une autre variable le code html de la page
fichier = open("siteweb.txt", "w")
#on créer un fichier texte sur lequel on peut écrire

fichier.write(texte2)

# permet d’écrire dans le fichier cible = siteweb.text

texte = re.sub("<.*?'\n.?>","",codehtml)

#on nettoie le texte de tout caractères spécifiques

texte = re.sub("&copy;","",texte)

#on lit et on decode le code html

print codehtml

#permet de visualiser le texte

infostat=open("infostat.txt","w")

#permet l’ouverture du fichier infostat.txt

infostat.write("\n Ce fichier contient"+str(len(texte2))+"caracteres.\n")# cet encodage 'len' pour obtenir le nbre de caractères dans le fichier infostat

expr=re.compile("\W+",re.U)

liste=expr.split(texte2)

print liste

# permet de couper le texte/ traitement du texte qui apparait en fin de page web

infostat.write("le fichier contient"+str(len(liste))+"mots.\n")

infostat.write(" ".join(liste))

# permet d'ajouter la liste des mots en question au fichier infostat:

mots=set(liste)

infostat.write("le fichier contient"+str(len(liste))+" mots dont "+str(len (set(liste)))+" mots different.\n")

infostat.write(" ".join(set(liste)))

# permet d'etablir combien de mots differents le texte contient.

listeord=sorted(set(liste),key=str.lower)

infostat.write(" ".join(sorted(set(liste),key=str.lower)))

# donne une liste des mots du texte en ordre alphabétique

dicoFreq={} # cet encodage initialise le dictionnaire

for mot in listeord: # pour un mot de la liste

    if mot not in dicoFreq:#s'il nest pas dans le dictionnaire

        dicoFreq[mot]=1# alors le mot prend une valeur de 1 dans le dictionnaire

    else:dicoFreq[mot]=dicoFreq[mot]+1#sinon il prend sa valeur précédente +1

for clef in sorted(dict.iterkeys(dicoFreq)):

    infostat.write(clef+"\t" +str(dicoFreq[clef]) +"\n")

# permet d’écrire le résulat dans le fichier

fichier = open("pagewebbis.txt","w")

fichier.write (texte2)

lignes=1

for line in fichier.read().split(','):

    lignes=lignes+1

print " La page contient" +str(lignes) +str(lignes) +"phrases.\n"

nbchars=len(texte2)

nbmots=len(liste)

moyenne=nbchars/nbmots

print "Le nombre moyen de caracteres par mot est: " + str(moyenne) + "\n"

 nbphrases=lignes

moyennephrase=nbmots/nbphrases

print "Le nombre moyen de mots par phrase est: " + str(moyennephrase) + "\n"

#le nombre de mots par phrase, avec definitionn de la variable pour commencer, puis imprimer

fichier.close()

infostat.write("le fichier1 contient en moyenne " + str(moyenne) +" caracteres par mot et " + str(moyennephrase) +" mots par phrase.\n")

infostat.close()

# permet d’écrire de sortir et de fermer le fichier.