Partie 2

TEXTE DU PERE DUCHESNE

Question n°1

Pour extraire tous les mots commençant par "citoy" dans le texte du père Duchene, il faut tout d'abord que j'entre dans mon fichier duchn.txt par le biais du logiciel Cygwin. Ensuite, j'utilise la commande egrep qui affiche toutes les lignes que le fichier contient. Puis, la commande "-i" qui dit que le motif recherché est soit en majuscule soit en minuscule. Enfin, j'emploie une expression régulière ici "\bcitoy" pour désigner que "citoy" débute le mot.

image de la comande utilisée

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

Cette image permet de rendre compte si les mots correspondant à l'expression régulière sont fréquents ou non.

Question n°2

image de la commande utilisée

La manipulation est la même que pour la question précédente. Seule l'expression régulière change :"\baristo". Nous cherchons tous les mots commençant par "aristo".

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

Par rapport aux mots commençant par "citoy", les mots débutant par "aristo" sont plus nombreux.

Question n°3

image de la commande utilisée

Nous devons, pour cette question, extraire les mots commençant par "bougre". On utilisera donc la même commande en changeant l'expression régulière: "\bbougre".

lien vers le fichier de résultat

cliquez ici

Question n°4

image de la commande utilisée

Cette question s'avère être plus complexe que les précédentes, car il faut relever les mots qui parlent de "sans-culotte". La commande egrep ne change pas mais il faut etoffer l'expression régulière. En effet, le mot commencera donc par "sans" mais ne se terminera pas necessairement par "culotte". L'expression régulière correspondante à ces deux critères est :"\bsans-culott".

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

Les mots contenant "sans-culott" sont très nombreux au sein de ce corpus.

Question n°5

image de la commande utilisée

Pour relever tous les mots possédant une majuscule, j'utilise toujours la fonction "egrep" mais j'adapte mon expression régulière. L'expression régulière qui convient est "\*".

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

3968 mots possèdent une majuscule dans le texte.

Question n°6

image de la commande utilisée

Ici j'utilise l'expression régulière "er\b" pour annalyser les mots se terminant par "er".

lien vers le fichier de résultat

cliquez ici

Question n°7

image de la commande utilisée

Les mots contenant le terme "danger" pourront être isolés grâce à l'expression régulière "\bdanger".

lien vers le fichier de résultat

cliquez ici

Question n°8

image de la commande utilisée

Les mots parlant de "patri" seront, quant à eux, caractérisés par l'expression régulière "\bpatri".

lien vers le fichier de résultat

cliquez ici

Question n°9

image de la commande utilisée

Cette question est un peu plus difficile car on ne peut pas utiliser l'expression régulière "\bliberté". En effet, elle restreint notre champ d'analyse. L'expression régulière "\blib[re]" est plus adaptée.

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

333 mots abordent le terme de la liberté dans ce texte du Père Duchesne.

Question n°10

image de la commande utilisée

Nous nous attachons ici au "temps". On utilisera alors l'expression suivante :"\btemp". Le sens de "temps" est météorologique mais egalement moral car ce mot est beaucoup utilisé au sein de différentes expressions.

lien vers le fichier de résultat

cliquez ici

Question n°11

image de la commande utilisée

Nous utiliserons pour cette question, l'expression régulière "\brepu".

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

Le thème de la république est souvent abordé dans ce texte.

Question n°12

image de la commande utilisée

Les mots évoquant la trahison, seront définit par l'expression régulière "\btrahi". Au sein de la commande "egrep"

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

Le thème de la trahsion, contrairement à celui de la république" est peu utilisé.

Question n°13

image de la commande utilisée

La négation sera désignée par une expression régulière plus complexe : "\bn[e']\b".

lien vers le fichier de résultat

cliquez ici

illustration avec antconc

La négation est très présente dans ce corpus et apparaît 2120 fois.

ETUDE MORPHOLOGIQUE

Question n°1

image de la commande utilisée

Pour comptabiliser le nombre total de mots dans un corpus, je dois utiliser la commande "wc".

Question n°2

Les mots se terminant par "able" seront définit par l'expression régulière "able\b"

image de la commande utilisée

Question n°3

Pour compter le nombre de mots terminés par "able", je dois changer de commande et utiliser "egrep -c". Ils appartiennent à la catégorie des adjectifs.

image de la commande utilisée

Question n°4

image de la commande utilisée

J'utilise la même commande que pour la question n°3 mais je change l'expression régulière : "eux\b". Ces mots appartiennent également à la catégorie des adjectifs.

illustration avec antconc

363 mots se terminent par "eux" dans ce texte.

Question n°5

image de la commande utilisée

La commande qui me permet d'extraire à la fois les mots se terminant par "able" et ceux se terminant par "ible" est une expression régulière : "[ai]ble\b".

illustration avec antconc

cliquez ici

DICTIONNAIRE

Arborescence

Ce schéma permet de résumer visuellement la structure d'un dictionnaire à partir d'une donnée.

cliquez ici

Représentation XML

Voici l'illustration de l'abrorescence ci-dessus ayant pour thème : les félins

cliquez ici