next up previous contents
Next: Extraire les mots se Up: Étude morphologique Previous: Étude morphologique   Contents

Compter les mots dans le fichier

Image nbmots







Figure: On peut compter le nombre de mot selon deux méthodes, la première consiste à compter seulement le nombre de lignes du fichier (méthode en principe suffisante car il n'y qu'un mot par ligne dans ce fichier), la seconde compte le nombre de lignes qui contiennent une concordance formant un mot complet. La sous-chaîne correspondante doit donc être soit au début de la ligne, soit être précédée d'un caractère ne pouvant entrer dans la constitution d'un mot. De même elle doit se trouver soit à la fin de la ligne, soit être suivie par un caractère ne pouvant entrer dans la constitution d'un mot. Les caractères composant les mots sont les lettres, les chiffres et le souligné (« _ ») : 136 250 occurrences


next up previous contents
Next: Extraire les mots se Up: Étude morphologique Previous: Étude morphologique   Contents

Julie Beliao 2009-01-11