Le nettoyage



#fait des coupures là ou il y a 1 ou plus caractères non-alphanumeriques
expr =re.compile("\W+", re.U)
listedemots = expr.split(codehtml)
print listedemots

#ranger par ordre alphabétique la liste avec les mots du texte
listedemots.sort()
print listedemots

#incrementation dans le dictionnaire des mots de la liste
dicoFreq = {}
for mot in listedemots:
#si le mot n'existe pas déjà dans le dico
if mot not in dicoFreq:
#on lui attribue une valeur de 1
dicoFreq[mot]=1
#sinon le mot existe et on augmente sa valeur de 1
else: dicoFreq[mot] = dicoFreq[mot]+1

#commande qui permet d'afficher sur un fichier le nombre de caracteres du texte
fichier2.write("Ce fichier contient "+ str(len(codehtml))+ " caractères.\n")

#commande qui permet d'afficher sur un fichier le nombre de mots du texte
fichier2.write("Ce fichier contient " +str(len(listedemots))+ " mots.\n")

for clef in sorted(dict.iterkeys(dicoFreq)):
fichier2.write(clef +"\t" +str(dicoFreq[clef]) +"\n")

#fermer fichier2
fichier2.close()