NETOYAGE :

Dans cette partie et pour un soucis de compatibilité des fichiers pour l'étape suivante, à savoir; la recherche de patrons morphosyntaxique. On a effectue un petit netoyage des fichiers résultat du Taggage, en enlevant les balises <w> </w>. en fesant en sorte d'obtenir un fichier bien aligné ( mettre les résultat ligne par ligne). et ce toujours pour ne pas avoir de problèmes lors de la recherche des patrons.

Le programme utilisé : Filtre.pl

TABLEAU DES RESULTATS :

RESULTATS NETOYAGE
MOIS DE JANVIER MOIS DE FEVRIER MOIS DE MARS
Filtre_jan_1.txt Filtre_feb_1.txt Filtre_Mars_1.txt
Filtre_jan_2.txt Filtre_feb_2.txt Filtre_Mars_2.txt
Filtre_jan_3.txt Filtre_feb_3.txt Filtre_Mars_3.txt
Filtre_jan_4.txt Filtre_feb_4.txt Filtre_Mars_4.txt
Filtre_jan_5.txt Filtre_feb_5.txt Filtre_Mars_5.txt
Filtre_jan_6.txt Filtre_feb_6.txt Filtre_Mars_6.txt
Filtre_jan_7.txt Filtre_feb 7.txt Filtre_Mars_7.txt
Filtre_jan_8.txt Filtre_feb_8.txt Filtre Mars_8.txt
Filtre_jan_9.txt Filtre_feb_9.txt  
Filtre_jan_10.txt Filtre_feb_10.txt  
Filtre_jan_11.txt Filtre_feb_11.txt  
Filtre_jan_12.txt Filtre_feb_12.txt  
Filtre_jan_13.txt Filtre_feb_13.txt  
Filtre_jan_14.txt Filtre_feb_14.txt  
Filtre_jan_15.txt Filtre_feb_15.txt  
Filtre_jan_16.txt Filtre_feb_16.txt  
Filtre_jan_17.txt Filtre_feb 17.txt  
Filtre_jan_18.txt Filtre_feb_18.txt  
Filtre_jan_19.txt Filtre_feb_19.txt  
Filtre_jan_20.txt Filtre_feb_20.txt  
Filtre_jan_21.txt Filtre_feb_21.txt  
Filtre_jan_22.txt Filtre_feb_22.txt  
Filtre_jan_23.txt Filtre_feb_23.txt  
Filtre_jan_24.txt Filtre_feb_24.txt  
Filtre_jan_25.txt Filtre_feb_25.txt  
Filtre_jan_26.txt Filtre_feb_26.txt  
Filtre_jan_27.txt Filtre_feb_27.txt  
Filtre_jan_28.txt Filtre_feb_28.txt  
Filtre jan_29.txt    
Filtre_jan_30.txt    
Filtre_jan_31.txt    

Après et pour des raison de foctionnement, et de vitesse d'execution des programme a venir, notamment le programme d'extraction terminologique. qu'on a essayé de faire tourné avec les fichier entier mais, le programme ne repondais pas ( il ne s'arretait pas de tourner) même après plusieurs heures d'execution.

On a donc selectionné les 8000 premières lignes de chaque fichier. et ca a donner les resultats suivants:

RESULTATS ECHANTILLONS
MOIS DE JANVIER MOIS DE FEVRIER MOIS DE MARS
jan_1.txt feb_1.txt Mars_1.txt
jan_2.txt feb_2.txt Mars_2.txt
jan_3.txt feb_3.txt Mars_3.txt
jan_4.txt feb_4.txt Mars_4.txt
jan_5.txt feb_5.txt Mars_5.txt
jan_6.txt feb_6.txt Mars_6.txt
jan_7.txt feb 7.txt Mars_7.txt
jan_8.txt feb_8.txt Mars_8.txt
jan_9.txt feb_9.txt  
jan_10.txt feb_10.txt  
jan_11.txt feb_11.txt  
jan_12.txt feb_12.txt  
jan_13.txt feb_13.txt  
jan_14.txt feb_14.txt  
jan_15.txt feb_15.txt  
jan_16.txt feb_16.txt  
jan_17.txt feb 17.txt  
jan_18.txt feb_18.txt  
jan_19.txt feb_19.txt  
jan_20.txt feb_20.txt  
jan_21.txt feb_21.txt  
jan_22.txt feb_22.txt  
jan_23.txt feb_23.txt  
jan_24.txt feb_24.txt  
jan_25.txt feb_25.txt  
jan_26.txt feb_26.txt  
jan_27.txt feb_27.txt  
jan_28.txt feb_28.txt  
jan_29.txt    
jan_30.txt    
jan_31.txt