Boîte à outils 3 : Extraction de patrons (suite)

Mise à part ces observations, il semble que l'extraction avec Cordial a réussi mieux. D'une part, on possède un plus grand nombre de résultats à analyser. D'autre part, en parcourant les deux listes et en faisant abstraction de l'anomalie "chiffres", on n'observe pas d'erreurs comme avec Treetagger - les listes ne comportent pas d'expressions avec préposition ou verbe.

Pour pouvoir mieux commenter les résultats obtenus, il reste quelques améliorations à faire sur les sorties Cordial :


1. Il faudrait améliorer la qualité de l'extraction en affinant les expressions
régulières des patrons.

2. Il faut traiter les listes de résultats pour supprimer les expressions avec
chiffres et les doublons (qui paraissent nombreux). Pour cela, les listes
seront classées par ordre alphabétique, regroupant ainsi les occurrences
répétées. On n'en conservera que la première en rajoutant le nombre
d'occurrences trouvées dans le corpus.













précédent<<suivant>>