Cygwin est un logiciel Unix qui rend possible l'exécution d'un shell sous Windows. Dans le cours, il nous a été utile pour analyser le texte Père Duchesne en utilisant des expressions régulières.

Pour naviguer dans le Cygwin, on utilise la commande cd (change directory), suivi par le nom du disque, par exemple d:, ou par le nom d'un fichier dans le répertoire. Pour savoir où on est, on utilise la commande pwd et pour afficher le contenu du dossier la commande ls.

Pour cette analyse, il fallait se familiariser avec la commande egrep. Il s'agit d'une commande Unix qui permet de faire du filtrage. Sa syntaxe : egrep (option) motif fichier

Exercices sur le Père Duchesne

Voici le lien vers le texte.

Question 1

Écrire une commande qui permet de filtrer les lignes contenant des mots commençant par "citoy".

Lien et réponse :

La séquence \b cherche la frontière du mot, ici le début.

Question 2

Écrire une commande qui permet de filtrer les lignes contenant des mots commençant par "aristo".

Lien et réponse :

Question 3

Écrire une commande qui permet de filtrer les lignes contenant des mots commençant par "bourge".

Lien et réponse :

Question 4

Écrire une commande qui permet de filtrer les lignes qui parlent des "sans-culottes".

Lien et réponse :

Il suffit de chercher par la séquence "culott" pour trouver tous les sans-culottes du texte (alternativement, on pourrait aussi chercher par "sans-coulott"). Le motif permet aussi de trouver le mot sans-culotterie.

Question 5

Écrire une commande qui permet de filtrer les lignes contenant une majuscule.

Lien et réponse :

L'antislash signale au programme que l'étoile n'est pas un méta-caractère (qu'il faut la prendre littéralement). Dans le texte, l'étoile a été utilisée pour signaler une majuscule.

Question 6

Écrire une commande qui permet de filtrer les lignes contenant des mots qui se terminent par "er".

Lien et réponse :

La séquence \b cherche la frontière d'un mot, ici la fin.

Question 7

Écrire une commande qui permet de filtrer les lignes contenant des mots qui parlent de "danger".

Lien et réponse :

Les séquences à considérer sont danger, dangereux(euse), dangerosit, dangereusement. Je n'y ai pas mis un \b parce qu'on pourrait aussi avoir une forme comme archidangereux, par exemple.

Question 8

Écrire une commande qui permet de filtrer les lignes contenant des mots qui parlent de "patrie".

Lien et réponse :

Il faut mettre l'option entre e et o parce que tous les mots commençant par patri ne parlent pas de ce concept. Par exemple, il y a des mots comme patriarche, patriclan, etc.

Question 9

Écrire une commande qui permet de filtrer les lignes contenant des mots qui parlent de "liberté".

Lien et réponse :

On cherche les mots suivants : libre(ment), liberté (+liberticide, libertaire), libérer (+ libératoire, libération, libérateur, libéré, libérable). La seule différence entre ces mots se trouve dans la lettre entre lib et r. Idéalement, on taperait "lib(e|é)?r" (ce que j'ai fait plus bas en AntConc), mais parce que cela ne marche pas ici à cause de l'accentuation, on peut mettre un point pour indiquer "n'importe quel caractère" entre ces deux séquences.

Question 10

Écrire une commande qui permet de filtrer les lignes contenant des mots qui parlent de "temps".

Lien et réponse :

Ici, il faut considérer temps aussi que temporel et temporal, mais non pas par exemple tempo. C'est pourquoi on indique que o est suivi par n'importe quel lettre en tapant [a-zA-Z]. J'ai aussi ajouté \b parce que je ne veux pas qu'il me trouve longtemps et printemps.

Question 11

Écrire une commande qui permet de filtrer les lignes contenant des mots qui parlent de "république".

Lien et réponse :

On offre l'option entre républiq- et républic-. On pourrait y aussi ajouter \b, mais je ne crois pas que cela fasse une différence. Le point est utilisé à cause des mêmes raisons que plus haut.

Question 12

Écrire une commande qui permet de filtrer les lignes contenant des mots qui parlent de "trahison".

Lien et réponse :

On veut trouver trahison aussi que traître. L'usage des signes est le même que dans les exercices plus haut.

Question 13

Écrire une commande qui permet de filtrer les lignes contenant des séquences de mots comportant une forme négative : ne...pas, n’...pas, etc.

Lien et réponse :

On chercher tous les ne ou n' suivis d'un pas, point, jamais, personne et on pourrait y en ajouter encore d'autres, par exemple rien, plus, etc. ; la séquence .*? veut dire qu'il y a "n'importe quel caractère" (point) qui est répété 0 ou plusieurs fois par l'étoile et cela est modéré par le point d'interrogation. La commande n'est pas parfaite parce qu'elle ignore des lignes comme au *palais que je ne cesserai d'appeler *royal. Mais il y a aussi d'autres limites ici, comme la distinction entre le ne explétif et le ne négatif, par exemple.

Étude morphologique

Question 1

Combien de mots dans le fichier ?

On utilise le manuel wc (User Commands) et sa fonction -w qui compte les mots.

Question 2

Avec la commande egrep extrayez les mots se terminant par -able.

Voici la liste.

Question 3

Combien y a-t-il de mots terminés par -able ? A quelle(s) partie(s) du discours sont-il rattachés ?

Il y a 492 mots en -able. Ce sont des adjectifs.

Question 4

Combien y a-t-il de mots terminés par -eux ?

Il y a 363 mots en -eux. Il trouve des adjectifs (comme heureux), des noms (comme un malheureux), des pronoms (comme eux), des adverbes (comme mieux) et des numéraux (comme deux).

Question 5

Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible ?

Lien.

Supplément : AntConc

J'ai refait l'exercice 1 en utilisant AntConc. Voici les captures d'écran pour chaque question:

Q1, Q2, Q3, Q4, Q5, Q6, Q7, Q8, Q9, Q10, Q11, Q12 et Q13.

.