Exercices sur le « Père Duchesne »


Pour chaque commande, cliquer sur le nom du fichier conduit aux résultats obtenus en la lançant.
NB : ils sont encodés en UTF8, ce qui peut provoquer des problèmes d'affichage des caractères accentués.
grep -E "\bcitoy" Duchn-utf8.txt > citoy grep -E "\baristo" Duchn-utf8.txt > aristo grep -E "\bbougre" Duchn-utf8.txt > bougre grep -E "er\b" Duchn-utf8.txt > Er
Commandes faisant usage du symbole \b de la frontière de mot pour filtrer certains types de mots.
grep -E "\*" Duchn-utf8.txt > Maj
Commande permettant de filtrer les majuscules, précédées par une astérisque dans le texte. L'astérisque est précédée du caractère d'échappement en raison de sa signification symbolique dans une expression régulière normale.
grep -E "\*?sans-culottes" Duchn-utf8.txt > SansCulottes grep -E "\bdanger[a-z]*\b" Duchn-utf8.txt > danger
Les mots qui parlent de danger commencent tous par "danger". Il n'y a pas besoin de spécifier une alternative.
grep -E "\bpatri(o[a-z]*|e)\b" Duchn-utf8.txt > patrie
En dehors du mot "patrie" lui-même, tout les mots qui parlent de patrie commencent par "patrio-". Un tel filtrage permet d'éviter de ramasser les mots comme "patrilinéaire" ou "patricien", qui n'ont aucun rapport direct avec le mot "patrie".
grep -E "\blib(re|(e|é)r[a-z]*)\b" Duchn-utf8.txt > libre
Les mots qui parlent de liberté peuvent commencer par "libre", "liber" (comme dans liberté), ou "libér-" (libération).

grep -E "\b[a-z]*temp(o[a-z]*|s)*\b" Duchn-utf8.txt > temps
Les mots parlant de temps contiennent soit la racine "temps", soit sa forme "tempo-". Un tel filtrage élimine "temple" et "contemplant", mais pas "printemps" dont le lien thématique et/ou étymologique est peut-être un peu trop ténu.
grep -E "\brépubli(q|c)[a-z]*\b" Duchn-utf8.txt > republique grep -E "\btra((î|i)tr|hi)[a-z]*\b" Duchn-utf8.txt > trahir
Cette expression régulière tient compte de l'oubli potentiel de l'accent circonflexe sur le i de traître.
grep -E "\bn(e\b|')" Duchn-utf8.txt > negation

Antconc

Vous commencerez par lire le texte suivant : Analyse lexicale d'un texte ou d'un discours avec Antconc Vous complèterez le travail demandé ci-dessus sur le texte "le Père Duchesne" en testant le logiciel Antconc et en appliquant les expressions régulières mises au jour dans le module concordance de ce logiciel. Le logiciel est à télécharger sur la page suivante :  www.antlab.sci.waseda.ac.jp/software.html

Étude Morphologique

Étude du fichier dico.txt
  1. Combien de mots dans le fichier ?
    grep -cE "\W" dico.txt On en trouve un total de 51113
  2. Avec la commande egrep extrayez les mots se terminant par -able. (Indiquez la ligne de commande).
    grep -E "able\b" dico.txt
  3. Combien y a-t-il de mots terminés par -able ? A quelle(s) partie(s) du discours sont-il rattachés ?
    grep -cE "able\b" dico.txt Il y en a 492. Ce sont des adjectifs et des noms.
  4. Même question pour -eux.
    grep -cE "eux\b" dico.txt Il y en a 363, ce sont essentiellement des adjectifs (mais aussi des noms comme "yeux")
  5. Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible ?
    grep -E "(a|i)ble\b" dico.txt