# -*- coding: utf-8 -*- import urllib, re #ouvrir l'url suivante puis la lire et la décoder url = urllib.urlopen("http://ilpga.fr") codehtml = url.read() codehtml=codehtml.decode("iso-8859-1") # enlever toutes les balises et les écrires dans liste texte = re.sub("<.*?>","",codehtml) expr = re.compile("\W+",re.U) liste = expr.split(texte) print liste mots = set(liste) mots = sorted(mots ,key=unicode.lower) # recoder en utf 8 texte=texte.encode("utf-8") lesmots=" ".join(liste).encode("utf-8") # ouvrir dans une page html fichier = open("pageweb.html","w") fichier.write(""" Analyse d'un fichier """) # écrire les mots dans un tableau, les trier par ordre alphabétique fichier.write("

Le fichier contient "+str(len(liste))+" mots:

") fichier.write("

Le fichier contient "+str(len(mots))+" mots différents:

") fichier.write("
") # écrire les mots, les classer, donner le nombre d'occurences fichier.write("
") fichier.write(u"
\n".join(mots).encode("utf-8")) fichier.write("
") import urllib, re url = urllib.urlopen("http://ilpga.fr") codehtml = url.read() codehtml=codehtml.decode("iso-8859-1") texte = re.sub("<.*?>","",codehtml) texte=texte.encode("utf-8") fichier = open("pageweb.html","w") fichier.write(""" Analyse d'un fichier """) fichier.write("
") fichier.write(texte) fichier.write("
") expr = re.compile("\W+",re.U) liste = expr.split(texte) print liste fichier.write("

Le fichier contient "+str(len(liste))+" mots:

") fichier.write("
") fichier.write(" ".join(liste)) fichier.write("
") fichier.write("

Le fichier contient "+str(len(liste))+" mots et "+str(len(set(liste)))+" mots différents:

") fichier.write("
") fichier.write(" ".join(set(liste))) fichier.write("
") fichier.write(" ".join(sorted(set(liste)))) fichier.write(" ".join(sorted(set(liste),key=str.lower))) fichier.write("
") fichier.write("
\n".join(sorted(set(liste),key=str.lower))) fichier.write("
") listeord = sorted(set(liste),key=str.lower) freqliste = [] for mot in listeord: freqliste.append((mot,liste.count(mot))) print freqliste fichier.write("") fichier.write("") for mot,freq in freqliste: fichier.write("") fichier.write("
motfréquence
"+mot+""+str(freq)+"
") search_pagename = re.search("(.*)",codehtml) pagename = search_pagename.group(1) print pagename pagename = search_pagename.group(0) print pagename liste_liens = [] search_lien = re.findall("(.*)?",codehtml) fichier.write("
") fichier.write("
\n".join(search_lien).encode("utf-8")) fichier.write("
") # chercher tous les mots suivants det = ["le","la","les","un","des","aux"] nom = ["domaines","langues","linguistique","phonétique","cursus"] verbe = ["être","étudier","analyser","transcrire","fleurir"] #les écrire dans la page suivante fichier.write("

Le texte de la page ") fichier.write(pagename) fichier.write(" contient les déterminants suivants :

") for i in liste: for j in det: if i==j: fichier.write("") fichier.write(i) fichier.write("\n") else: print "cette forme n'est pas dans la liste des déterminants!" fichier.write("

Le texte de la page contient les noms suivants :

") for i in liste: for k in nom: if i==k: fichier.write("") fichier.write(i) fichier.write("\n") else: print "cette forme n'est pas dans la liste des noms!" fichier.write("

Le texte de la page contient les verbes suivants :

") for i in liste: for l in verbe: if i==l: fichier.write("") fichier.write(i) fichier.write("\n") else: print "cette forme n'est pas dans la liste des verbes!" fichier.write(" ") # Fermeture du code HTML. fichier.close() # Fermeture du fichier de sortie.