Sommaire cliquable




PARTIE 1

Exercice 1 : travail sur le texte du "Père Duchesne"
Question 1"
Question 2"
Question 3"
Question 4"
Question 5"
Question 6"
Question 7"
Question 8"
Question 9"
Question 10"
Question 11"
Question 12"
Question 13"

Exercice 2 : étude morphologique
Question 1"
Question 2"
Question 3"
Question 4"
Question 5"

PARTIE 2 : les entrées structurées des dictionnaires




PARTIE 1 : Exercice n°1 - Travail sur le texte du "Père Duchesne"









Question 1

Commande tapée avec egrep :

Résultat de la commande

Justifications :

"egrep" est la commande qui permet de filtrer, dans un fichier donné, des lignes contenant un motif déterminé.
Ici, le motif est "\bcitoy" c'est à dire les mots qui commençent par "citoy".
"\b" qui précède une suite de lettres indique que cette suite commence un mot. "\b" qui suit une suite de lettres indique que celle-ci se situe en fin de mot.
"-i" précise que l'on recherche les mots qu'ils soient en majuscule ou en minuscule.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui commencent par "citoy".

Dans le résultat donné par la commande, on retrouve par exemple les mots : citoyens, citoyen et citoyenne.

Question 2

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\baristo" c'est à dire les mots qui commençent par "aristo".
"-i" précise que l'on recherche les mots qu'ils soient en majuscule ou en minuscule.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui commencent par "aristo".

Dans le résultat donné par la commande, on retrouve par exemple les mots : aristocrates, aristocratie et arictocrate.

Question 3

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\bbougre" c'est à dire les mots qui commençent par "bougre".
"-i" précise que l'on recherche les mots qu'ils soient en majuscule ou en minuscule.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui commencent par "bougre".

Dans le résultat donné par la commande, on retrouve par exemple les mots : bougre, bougres et bougrement.

Question 4

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "culott" c'est à dire que l'on recherche la quite de caractères "culott", qu'il soit seul ou placé dans un mot. Comme le contexte du texte est la révolution française, nous savons que tous les mots contenant cette suite de caractères sera en rapport avec les "Sans-culottes".
"-i" précise que l'on recherche les mots qu'ils soient en majuscule ou en minuscule.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles l'auteur parle des Sans-culotte.

Dans le résultat donné par la commande, on retrouve par exemple les mots : *sans-culottes (qui correspond à Sans-culottes), sans-culotterie et sans-culottisés.

Question 5

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\*" c'est à dire les mots qui commençent par "*". En effet, on peut remarquer qu'il n'y a pas de majuscules dans le texte et que chaque mot qui est sencé commencer par une majuscule est précédé d'une astérisque. Donc on déduit que les majuscules, dans ce texte, sont représentées par les "*" avant la lettre.
Si on place un "\" avant l'astérisque c'est parce que celui-ci est un caractère utilisé dans les expressions régulières qui signifie "répétition de ce qui précède autant de fois que l'on veut". L'antislash lui enlève son statut d'expression régulière.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui commencent par "*" c'est à dire les mots qui commencent par une majuscule (le "*" correspond au format des majuscules dans le texte).

Dans le résultat donné par la commande, on retrouve par exemple les mots : *père (qui correspond à Père), *duchesne (soit Duchesne), *marat, *calvados, *paris, *sans-culottes, *vendée, *caen, *marseille ou encore *ami.

Question 6

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "er\b" c'est à dire les mots qui se terminent par "er".
Je n'ai pas remis, dans la formule, le "-i" qui précise que l'on recherche les mots qu'ils soient en majuscule ou en minuscule, car on a pu remarquer que dans ce texte il n'y a pas de majuscules.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui terminent par "er".

Dans le résultat donné par la commande, on retrouve par exemple les mots : égorger, exécuter, appeler, frapper, parler, pleurer, cesser, tirer, empêcher, séparer, quartier, gambader ou encore donner.

Question 7

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\bdange" c'est à dire les mots qui commencent par "dange".
On cherche les mots qui parlent de "danger", on utilise donc le radical de ce mot qui nous permettra de récupérer tous les mots clés en rapport avec ce terme. Ici, le radical est -dange-. Ce radical ne possède jamais de préfixe, c'est pour ça qu'on se permet de le placer en début de mot dans la recherche.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui commenent par "dange".

Dans le résultat donné par la commande, on retrouve par exemple les mots : dangers, danger, dangereuse et dangeureux.

Question 8

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\bpatri[^a]" c'est à dire les mots qui commencent par "patri" mais en excluant ceux dont la lettre qui suit est la voyelle "a".
En effet, on cherche les mots qui parlent de "patrie", on utilise donc le radical de ce mot qui nous permettra de récupérer tous les mots clés en rapport avec ce terme. Ici, le radical est -patri-. Mais certains mots commençant par "patri" ne sont pas de la même famille que "la patrie", ce sont les mots dont la voyelle qui suit est le "a", par exemple : patriarche.
L'expression "[^a]" signifie qu'on exclu les mots dont la lettre "a" suit ce radical.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui ont un rapport avec le radical "patri" en excluant les suites de lettres "patria".

Dans le résultat donné par la commande, on retrouve par exemple les mots : patriote, patrie, patriotes, patriotiques, patriotique ou encore patriotisme.

Question 9

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\blib[re]" c'est à dire les mots qui commencent par "lib" mais dont la lettre qui suit est soit "e" soit "r".
En effet, on cherche les mots qui parlent de "liberté", on utilise donc le radical de ce mot qui nous permettra de récupérer tous les mots clés en rapport avec ce terme. Ici, le radical est -lib-. Mais les mots commençant par "lib" et en rapport avec la "liberté" n'ont pour continuité de mot que : soit un "e" (exemple de "liberté") soit un "r" (exemple pour "libre").
L'expression "[re]" signifie donc que l'on ne souhaite garder que les mots dont le radical "lib" est suivit d'un "r" ou d'un "e".
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui ont un rapport avec le radical "lib" en se basant sur deux radicaux possibles : -libe- comme "liberté" et -libr- comme "libre".

Dans le résultat donné par la commande, on retrouve par exemple les mots : liberté, libres et libre.

Question 10

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\btemp[os]" c'est à dire les mots qui commencent par "temp" et qui sont suivis soit pas "o" (comme temporel) soit par "s" (comme temps).
On cherche les mots qui parlent de "temps", on utilise donc le radical de ce mot qui nous permettra de récupérer tous les mots clés en rapport avec ce terme. Ici, le radical est -temp-. Mais si on ne précise pas la lettre suivante, le programmme selectionne également le mot "temple".
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui ont un rapport avec le radical "temp" et dont ce même radical est suivi de "s" ou "o".

Les mots "temps" trouvés sont employés dans des sens différents : météorologique, époque ou encore chronologique.

Question 11

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\br.publi" c'est à dire les mots qui commencent par "r.publi", le "." signifiant "n'importe quel caractère".
En effet, on cherche les mots qui parlent de "république", on utilise donc le radical de ce mot qui nous permettra de récupérer tous les mots clés en rapport avec ce terme. Ici, le radical est -républi-. Mais le logiciel Cygwin n'accepte pas les accents. On sait qu'en français, un mot commençant par "r" suivit d'une seule lettre (quelconque) puis de "publi", ne peut correspondre qu'à un mot commençant par "républi".
Pour cela on remplace le "é" par ".".
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui ont un rapport avec le radical "républi".

Dans le résultat donné par la commande, on retrouve par exemple les mots : républicaine, république, républicains et républicaines.

Question 12

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "\btrahi|\btra.tr".
En effet, on cherche les mots qui parlent de "trahison", on utilise donc le radical mais les mots de cette famile ont des radicaux différents : traître, traîtrise, trahison...
Pour cela, nous recherchons les mots commençant par "trahi" et les mots commençant par "tra.tr".
- on utilise le "." car Cygwin ne connais pas les accents. - le signe "|" permet de distinguer les deux "débuts de mots" recherchés - on utilise le motif "\btra.tr" et non pas "\btra.t" car on obtient, dans le résultat, des mots tels que "traité" qui n'ont rien à voir avec la trahison.
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles il y a un ou plusieurs mots qui ont un rapport avec "trahison".

Dans le résultat donné par la commande, on retrouve par exemple les mots : "traîtres", "traître", 'trahis", "trahison", "trahisons", "trahissent".

Question 13

Commande tapée avec egrep :

Résultat de la commande

Justifications :

Ici, le motif est "<\bne\b|\bn'>+.*<\bpas\b|\bplus\b|\bpoint\b>" c'est à dire les formulations négatives.
On utilise donc :
- \bne\b - \bpas\b - \bplus\b - \bpoint\b : qui recherchent les mots "ne", "pas", "plus", et "point".
- \bn' : qui recherche tous les mots commençant pas "n'".
- <> : qui sert à délimiter les parties recherchées, ici, la première apparition de la forme négative (ne, n') et la deuxième apparition (pas, plus ou point).
- + : qui précise que la première partie recherchée doit apparaître au moins une fois.
- .* : entre les deux parties, il peut y avoir n'importe quel caractère (.) autant de fois que l'on veut (*).
- | : ce signe permet de spécifier l'alternance, soit "ne" soit "n'", et, soit "pas" soit "plus" soit "point".
"duchn.txt" correspond au fichier texte dans lequel on recherche le motif.
On demande donc au programme, par l'intérmédiaire de la commande "egrep" de trouver toutes les lignes du texte donné (sur le Père Duchesne) dans lesquelles une séquence de mots comprenant une forme négatie, soit : .

Dans le résultat donné par la commande, on retrouve par exemple les formules : ne pas, ne plus, n' plus.









PARTIE 1 : Exercice n°2 - Etude morphologique









Question 1


Commande tapée :

Explications :

En regardant le dossier dico.txt, on peut observer que les mots sont séparés de "retour chariot". Nous pouvons ainsi déduire qu'un mot correspond à une ligne, soit, il y a un mot par ligne ! Il suffit donc d'utiliser l'option egrep "-c" qui compte les lignes contenant le motif demandé.
Le motif ".*" signifie "n'importe quel caractère autant de fois que l'on veux".
"dico.txt" correspond au fichier texte dans lequel on recherche le motif.

Il y a donc 136252 mots dans ce dictionnaire.

Question 2


Commande tapée :

On complète cette commande par une autre....

Résultat : mots extraits

Question 3


Commande tapée :


Il y a donc 492 mots se terminant par "-able" dans le fichier "dico.txt".

Pour savoir à quelle(s) partie(s) du discours ils sont rattachés, nous allons travailler dans le fichier "dico-etiquette.txt".

Dans le fichier, le tri est fait de la forme suivante :

MOT_PARTIEduDISCOURS

Donc nous ne pouvons pas nous baser sur "la fin du mot en -able" puisque le mot est suivit de sa catégorie. Nous utilisons ainsi l'expression ".*\b" qui correspond à : n'importe quel caractère, autant de fois que l'on veut, en fin de mot, c'est à dire après "-able".

Résultat : mots extraits avec leur catégorie

Les mots se terminant par "-able" sont donc rattachés aux : adjectifs, verbes et noms !

Question 4


Nous procédons de la même façon pour les mots par "-eux".


Il y a donc 363 mots dans le fichier "dico.txt" qui finissent par "-eux".

Résultat : mots extraits avec leur catégorie

Les mots terminés par "-eux" sont donc des adjectifs ou des noms !

Question 5


Nous procédons toujours de la même façon.


Le signe | précise que les mots peuvent se finir SOIT par "-able" SOIT par "-ible".

Résultat : mots extraits









PARTIE 2 : Les entrées structurées des dictionnaires









En naviguant sur le TLF, j'ai décidé de m'intéresser à la famille de mots des instruments de musique :

Le banjo - Définition du TLFi.
La clarinette - Définition du TLFi.
Le clavecin - Définition du TLFi.
La contrebasse - Définition du TLFi.
L'harmonica - Définition du TLFi.
Le saxophone - Définition du TLFi.
Le tambourin - Définition du TLFi.
La timbale - Définition du TLFi.
Le trombone - Définition du TLFi.
Le violoncelle - Définition du TLFi.


J'ai réussi à dessiner une arborescence pour décrire la structure des entrées (des instruments de musique) de ce dictionnaire. J'ai alors réalisé une représentation structurée "générale" en me basant sur les entrées que j'ai choisies, en utilisant le balisage XML.

Il y a diverses "cases" dans le classement qui ne sont pas toujours remplies, je les ai quand même écrites parce qu'elles sont importantes pour certains mots (même si ce n'est pas le cas pour d'autres mots). Vous les voyez, ci-dessous, en couleur !





Voici maintenant la représentation complète pour décrire ces données du dictionnaire TLFi ! Cliquez ici !