Partie 2 : Cygwin

Sommaire
I.1) Exercice sur le "Père Duchesne"
I.2) Etude morphologique

I.1) Exercice sur le "Père Duchesne"
On travaille sur le fichier duchn.txt.

Notes :
- Puisque tout le texte est écrit en bas de casse et que les majuscules sont signalées par une astérisque, nous n'avons pas besoin d'utiliser l'option "-i" de egrep pour ignorer la casse lors des comparaisons.
- Le nombre d'occurences de chaque terme recherché est indiqué entre parenthèses après la commande utilisée, il est trouvé à l'aide de l'option "-c".
- Cygwin B20 ne supportant pas les caractères accentués, ils seront remplacés dans les lignes de commande par des "." (n'importe quel caractère).
- Pour les commandes affichant toutes les lignes contenant un motif, j'ai préféré, par commodité, renvoyer les résultats dans un fichier texte (en ajoutant "> fichier.txt" à la commande) plutôt que de faire des copies d'écran (trop volumineuses). Cliquez sur le terme recherché pour accéder au fichier de résultat de la recherche.


Commande qui permet de filtrer les lignes...

• Contenant des mots commençant
- par « citoy » : egrep "\bcitoy" duchn.txt (102)
- par « aristo » : egrep "\baristo" duchn.txt (162)
- par « bougre » : egrep "\bbougre" duchn.txt (304)

• Qui parlent des « Sans-culottes » : egrep "\bsans-culotte" duchn.txt (524)

• Contenant une majuscule : egrep "\*" duchn.txt (3077)
(puisque les majuscules sont ici signalées par une astérisque)

• Contenant des mots qui se terminent par « er » : egrep "er\b" duchn.txt (3445)

• Contenant des mots qui parlent
- de « danger » : egrep "\bdanger" duchn.txt (25)
(on prévoit les différents suffixes, mais il ne peut pas y avoir de préfixe)
- de « patrie » : egrep "patri" duchn.txt (295)
(on prévoit les différents préfixes et suffixes)
- de « liberté » : egrep "\blib" duchn.txt (333)
(on prévoit "libre", "liberté", "libération"...)
- de « temps » : egrep "temp(s|o)" duchn.txt (212)
(on prévoit les mots de la famille de "temporel", mais il se trouve qu'il n'y en a pas dans ce texte)
(utilisations de "temps" dans le texte : temporalité : "temps", "longtemps" ; météorologie : "il faisait un temps de bougre" ; on le trouve aussi dans "printemps")
- de « république » : egrep "r.publi" duchn.txt (502)
(on prévoit les préfixes ("anti"...) et suffixes ("république", "républicain"...)
- de « trahison » : egrep "tra(h|.tr)" duchn.txt (243)
(on prévoit "trahison" et les mots de la famille de "traître")

• Contenant des séquences de mots comportant une forme négative : egrep "(\bn'|\bn\b)" duchn.txt (1144)
(on recherche les formes "n'" et "ne")


I.2) Etude morphologique
On travaille sur le fichier dico.txt.

• Combien y a-t-il de mots dans le fichier ?

(puisque le fichier contient un mot par ligne, il suffit de compter le nombre de lignes du fichier)

• Extraire les mots se terminant par « -able » : egrep -i "able\b" dico.txt

• Combien y a-t-il de mots terminés par « -able » ?

• Extraire les mots se terminant par « -eux » : egrep -i "eux\b" dico.txt

• Combien y a-t-il de mots terminés par « -eux » ?

• Extraire à la fois les mots se terminant par « -able » et « -ible » : egrep -i "(a|i)ble\b" dico.txt