Cygwin et les commandes "egrep"

Voilà une petite présentation de ma démarche:

Partie 1 : exercice n°1: " Le journal du père Duschesne"

Question n°1

Commande tappée avec egrep : Mots commençant par "citoy"

Résultat de la commande

Justification de la commande:

Dans ma commande, je cherche le début d'un mot \b . Comme je sais que dans tous les termes du champ lexical de « citoyen »,les 5 premiers graphèmes « citoy »seront toujours présents je n’ai pas besoin de rajouter d’autres lettres. J'obtiendrais ainsi dans mon fichier les termes: citoyen, citoyens, citoyennes...

Question n°2: Mots commençant par "aristo"

Résultat de la commande

Justification de la commande:

« aristo » :Il peut y avoir de nombreux dérivés tels que « aristocrate,aristocratie, aristocratique... » pour ne pas limiter ma recherche, je ne chercher que les six premiers graphèmes. J’indique au préalable que ces graphèmes seront en début de mots.

Question n°3: Mots commençant par « bougre »

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Je souhaite à présent récupérer le plus grand nombre de termes commençant par "bougre" soit: « bougre, bougres, bougrement, bougreries... »je tape simplement la recherche de début de mot \b puis les graphèmes que je recherche et j'obtiens ainsi le résultat.

Question n°4:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Je cherche les mots qui parlent des « Sans-culottes ». Tout d’abord je peux faire deux remarques. La première est que ce document ne contient pas de majuscules « normales » car elles sont indiqués par un *, il est donc inutile que j’écrire des majuscules dans ma commande; la deuxième est que « sans » n’est pas obligatoire car « culotte » est suffisant pour ma recherche. En effet, le corpus traite d’un sujet bien précis qui est ‘la révolution’. Le second terme est donc pertinent et ne nécessite pas d’opérateurs.

Question n°5:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Les mots contenant une majuscule : En regardant le texte je vois que les majuscules des noms propres ne sont pas écrites mais indiquées par un « * » qui précède le terme. Si je souhaite trouver les mots commençant par une majuscule, j’ai simplement besoin de rechercher les « * » qui figurent dans le texte. Or je vais rencontrer un problème: « * » a déjà un statut d’opérateur (c’est un joker).Donc avant de lancer ma recherche je place l’antislash qui me permet d’inhiber l’opérateur qui retrouve un statut de caractère.

Question n°6:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

La commande que j’ai utilisée pour rechercher les termes se terminant par « -er » consiste a écrire «er \b » : c'est-à-dire que je cherche un terme dans lequel « er » est en fin de mot.

Question n°7:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Pour chercher les mots parlant de « danger » je me rend compte que je ne suis pas obliger de mettre le « r » dans le motif, le radical est suffisant et me permet à lui seul de réussir ma recherche. En effet, tous les termes parlant de « danger » comportent les quatre premiers graphèmes.

Question n°8:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Je recherche des mots parlant de « patrie » : j’ai mis l’opération régulière d’une recherche en début de mot car je ne pense pas trouver des termes comme « apatride » qui contiennent la notion de patrie mais avec un préfixe. Puis j’ai seulement tapé les 5 premiers graphèmes et non le « e ». Celui-ci exclurait les termes comme « patriotes », « patriotique ». Si je n’avais inscrit que les quatre graphèmes « patr » cela n’irai pas car j’obtiendrais certainement des termes comme « patron ».De plus, je ne veux pas obtenir des termes comme « patriarcal ». Pour cela je rajoute un opérateur de négation d’ensemble [^a]. Ainsi, la commande trouvera tous les termes commençant par « patri » suivit de n’importe quel caractère de l’alphabet, à l’exception du « a ».

Question n°9:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Pour « liberté » je sais que je trouverai toujours cette notion en radical, je mets donc l’opération régulière de début de mot. Or sur ce radical, le champ lexical est vaste : liberté, libertés, libre…Si dans mon motif je ne mets que « lib » il se peut que j’obtienne des mots qui sont sans rapport comme « libation » quoique le contexte de révolution ne convient pas trop. Mais au cas où, je préfère mettre un opérateur d’ensemble précisant que le quatrième graphème devra être soit un « e » soit un « r ». Je l’inscris ainsi : [re].

Question n°10:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Pour chercher les mots qui parlent de « temps », je me suis dit que ce n’était pas le sens du temps des conjugaisons. Notre sujet parle de la révolution, donc la définition du terme doit correspondre à la durée,au temps qui passe et au sens météorologique. Je vais trouver des termes comme « longtemps » et des expressions telle que : « faire la pluie et le beau temps ». Je ne vais donc pas contraindre ma recherche avec des opérateurs mais utiliser seulement la chaîne de caractère « temps ».

Question n°11:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Pour les termes qui parlent de « république » je cherche d’abord le début de mot \b, puis je souhaite insrcire « républi » pour donner plus de possibilité à ma recherche et trouver des terles comme "république,ou républicains... Or les caractères accentués ne permettent pas la recherche. Je vais donc utiliser le symbole « . » pour n’importe quel caractère afin de remplacer le « é ». Je peux ainsi obtenir les lignes qui parlent de « république, républicains… »

Question n°12:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Je cherche des mots parlant de « trahison ». Je sais que si je n’utilise que les trois premiers graphèmes : « tra-» ma recherche sera trop vaste et je pourrais obtenir des mots comme « traverser ». Je dois donc la spécifier d’avantage. Si je rajoute un « h » j’obtiens ainsi : « trahir, trahison, trahissez… »

Question n°13:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

La négation peut se faire de deux façons : « ne…pas » ou de façon élider « n’…pas ». Afin de trouver un « ne » ou un « n’ » j’ai mis dans mon motif l’opération de début de mot « \b » pour ne pas avoir des formes comme « règne »; puis j’ai utilisé l’opérateur « | » qui me permet de chercher soit la forme pleine « ne », soit la forme élidé « n’ ». A la suite, j’ai indiqué que je souhaitais trouver l’adverbe de négation « pas ». J’obtiens ainsi l’une des ces deux formes de négation.

Partie 1 : exercice n°2: " Etude morphologique"

Question n°1: Combien y -a-t-il de mots dans le fichier?

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande: "wc"fonctionne comme "egrep", j'y rajoute l'option "-w" qui permet de calculer le nombre de mots qui seront présents dans le fichier. Après un espace, j'inscris le nom du fichier.

Il y a 136252 mots!

Question n°2: les mots se terminant par -able

Ma commande tappée avec egrep :

Résultat de la commande

Justification de la commande: ici par cette commande j'indique que je cherche les mots finissant en "able", pour cela je colle à "able""\b", ce qui indique que le suffixe sera en fin de mot.

.

Question n°3: je traite ainsi deux questions a/ et b/

Mes deux commandes tappées avec egrep :

a/ Combien de mots se terminent par -able?

Résultat de la première commande de redirection de flux

Justification de la commande: par la première commande je cherche tout simplement les mots se finissant en "able", j'indique par \b que le suffixe est en position finale, puis j'utilise la redirection de flux pour enregistrer mon résultat dans le document "motsQ1.txt".Puis avec la seconde commande commande j'indique "-w' qui compte le nombre de mots contenus dans fichier "motsQ1.txt". Le résultat apparaît sur l'image: il y a 492 mots!

b/ Et à quelle partie du discours sont-ils rattachés?

Résultat de la commande

Justification de la commande:Dans un second temps, je crée une nouvelle commande "wc" où je met la fonction "-w" qui va compter le nombre de mots dans le fichier que je viens de créer; "motsQ1.txt".

Question n°4

a/ Combien de mots se terminent par -"eux"?

La commande a/ tappée avec egrep :

Résultat de la commande

Justification de la commande: par la première commande je cherche tout simplement les mots se finissant en "eux", j'indique par \b qu'ils sont en position finale, puis j'utilise la redirection de flux pour enregistrer mon résultat dans le document "motsQ1.txt". Dans un second temps, je crée une nouvelle commande "wc" où je met la fonction "-w" qui va compter le nombre de mots dans le fichier que je viens de créer; "motsQ1.txt".

b/ Et à quelle partie du discours sont-ils rattachés?

La commande b/ tappée avec egrep :

Résultat de la commande

Justification de la commande: comme je souhaite trouver les catégories des termes finissant en "eux", je vais regarder le contenu du document "dico-etiquette.txt". Je me rend compte que chaque terme est relié à sa catégorie sous la forme "mots_CATEGORIE", donc tous les termes en "eux" auront la forme "...eux_... Avec la commande " egrep", j'indique tout simplement que je cherche les chaînes de caractères contenant le motif "eux_", ainsi j'obtiendrai tous les termes, associés à leurs catégories. Je redirige le flux de sortie dans un fichier txt.

Question n°5: Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible:

Commande tappée avec egrep :

Résultat de la commande

Justification de la commande:

Pour chercher les mots qui parlent de « temps », je me suis dit que ce n’était pas le sens du temps des conjugaisons. Notre sujet parle de la révolution, donc la définition du terme doit correspondre à la durée,au temps qui passe et au sens météorologique. Je vais trouver des termes comme « longtemps » et des expressions telle que : « faire la pluie et le beau temps ». Je ne vais donc pas contraindre ma recherche avec des opérateurs mais utiliser seulement la chaîne de caractère « temps ».