import os
os.chdir("/mnt/c/Users/Administrator/Desktop/projet/projet_mot_sur_le_web")
f=open("fichier_seg.txt",'r')
t1=f.read()
t1=t1.replace(" ",",")
#remplacer tous les espaces par des virgules. C'est pour faciliter le retrait des mots.
t2=t1.split("\n")
rows=[]
dic={}
string="[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。、-=<【】「」？~@#￥%……&*（）]+"
#ce sera pour ignorer les ponctuations dans les étapes suivants
for i in t2:
	row=i.split(",")
	#tous les mots dans le texte1 sont séparés par la virdule
	rows.append(row)
#on peut savoir que la liste de rows est constituée par de nombreux phrases sépérées comme mot à mot au format de liste
for i2 in rows:
	for each in i2:
		if each in dic:
			dic[each]=dic[each]+1
		else:
			if each not in string:
				dic[each]=1
#c'est pour calculer la fr&quences de chaque mot
#et dans le dinctionnaire de dic, les clés sont des mots ou caractères, les valeurs sont le nombre de fréquence
print(sorted(dic.items(),key=lambda x:x[1],reverse=True))