Vous êtes sur la partie 1 du site : elle contient les exercices réalisés avec cygwin : premièrement une utilisation des expressions régulières, puis une étude morphologique.

 

Exercices sur le "Père Duchesne"

Analyse morphologique

 

 

1.Exercices sur le "Père Duchesne"(version texte brut)

 

 Question n°1

Voici la commande qui permet d'obtenir les lignes contenant des mots qui commencent par "citoy" :

La première ligne correspond au répertoire dans lequel on travaille : ici, "TDL3I02_Chaminade".

La commande egrep permet d'extraire les lignes contenant des mots commençant par "citoy" ("\b citoy") dans un texte donné (Duchn.txt).

Il est plus pratique d'afficher ce résultat dans un fichier texte (exo1-q1.txt), on évite ainsi d'encombrer la fenêtre cygwin.

Cliquez ici pour voir le résultat.


 Question n°2

Voici la commande qui permet d'obtenir les lignes contenant des mots qui commencent par "aristo" :

Ici, ainsi que dans la question précédente, l'expression régulière \b permet de signaler que le motif ("aristo") se situe en début de mot. Ainsi, on peut obtenir comme résultat des lignes contenant les mots "aristocrate", "aristocratie", etc.

Cliquez ici pour voir le résultat.


 Question n°3

Voici la commande permettant de trouver les lignes contenant des mots qui commencent par "bougre" :

Cliquez ici pour voir le résultat.


 Question n°4

Voici la ligne de commande permettant de filtrer les lignes contenant des mots qui parlent des sans-culottes.

L'expression régulière décrivant le motif doit prendre en compte le fait que le texte puisse contenir le mot au singulier, par exemple.

Cliquez ici pour voir le résultat.


 Question n°5

Voici la ligne de commande permettant de filtrer les lignes contenant une majuscule :

Cependant, le texte, en version brute, ne contient pas de majuscule, c'est pourquoi le fichier de résultat est vide.


 Question n°6

Voici la ligne de commande permettant de filtrer les lignes contenant des mots qui finissent en "er" :

Cliquez ici pour voir le résultat.


 Question n°7

Voici la ligne de commande permettant de filtrer les lignes contenant des mots qui parlent de "danger" :

Les mots qui parlent de "danger" peuvent être multiples : il faut que l'on puisse trouver des adjectifs comme "dangereux", des substantifs tels que "dangerosité", en plus du simple mot danger. Cependant, tous ces mots commencent par la même séquence ; on recherche donc des mots commençant par danger : "\b danger".

Cliquez ici pour voir le résultat.


 Question n°8

Voici la ligne de commande permettant de filtrer les lignes contenant des mots qui parlent de patrie :

Les mots qui parlent de "patrie" peuvent être, hormis le mot "patrie" lui-même, l'adjectif "patriote", ou le substantif "patriotisme". Ainsi, les mots qui parlent de "patrie" peuvent commencer soit par "patrio", soit par "patri" ; c'est pourquoi on recherche des lignes contenant des mots qui commencent par "patri" : "\b patri<o|e>". On précise les deux suites possibles, pour ne pas récupérer des mots d'une autre famille ("patrimoine", par exemple), grâce au caractère | , signifiant "ou" dans une expression régulière.

Cliquez ici pour voir le résultat.


 Question n°9

Voici la ligne de commande qui permet de filtrer les lignes contenant des mots parlant de "liberté" :

Les mots qui parlent de liberté peuvent commencer par "liber" : "liberté", "libertaire", ou par "libr" : "libre", "librement". On recherche donc le motif "\b lib<er|r>".

Cliquez ici pour voir le résultat.


 Question n°10

 Voici la ligne de commande permettant de filtrer les lignes contenant des mots parlant de "temps" :

Le mot "temps" peut revêtir plusieurs sens : il peut appartenir à un domaine purement temporel (l'heure, la date, etc.) ou au domaine météorologique. On peut également trouver des expressions contenant le mot "temps" : "contre-temps", "tiers-temps". On ne fera pas de différence de classement, et on recherchera donc des mots contenant la suite de caractère "temp" : "temporaire", "temps" : "temp".

Cliquez ici pour voir le résultat.


 Question n°11

Voici la ligne de commande permettant de filtrer les lignes contenant des mots parlant de "république" :

On peut trouver des mots commençant par "républiq" ("république") ou par "républic" ("républicaine"). De plus, les caractères accentués sont ici représentés par un point. On considère qu'on ne trouvera pas de séquence avec une autre lettre à la place de ce "é". On cherchera donc le motif "\r.publi<c|q>".

Cliquez ici pour voir le résultat.


 Question n°12

Voici la ligne de commande permettant de filtrer les lignes contenant des mots qui parlent de "trahison":

Ces mots peuvent commencer par "trahi" ("trahison", "trahir"), mais aussi par "traitr" ("traître", "traîtrise"). On cherchera donc le motif "\b tra<h|i>".

Cliquez ici pour voir le résultat.


 Question n°13

Voici la commande permettant de filtrer les lignes contenant des séquences de mots qui comportent une forme négative :

 

La négation, en français, est composée de deux parties. La première pouvant être soit "ne", soit "n' ", soit "ni" ; la deuxième pouvant être soit "pas", soit "plus", soit "point", soit "ni", ou encore "que".

Cependant, cette ligne de commande ne donne pas les formes négatives de type "ne"/"n' "/"ni" ... "que", et "ni"..."ni". Il faut donc les inclure :

 

Cliquez ici pour voir le résultat.

 

 

2.Etude morphologique


 Question n°1

Le dossier contient deux fichiers : un avec les mots, et l'autre avec leurs étiquettes respectives. Ici, les résultats correspondent au premier fichier.

Etant donné que dans le fichier "dico.txt", une ligne équivaut à un mot, compter le nombre de mots revient compter le nombre de lignes.

Voici la ligne de commande permettant de compter le nombre de lignes :

L'option -c permet d'afficher le décompte des lignes ; "\b + \w + \b" signifie "n'importe quel caractère alphabétique, zéro, une ou plusieurs fois".

Le fichier contient donc 136250 mots.

Cliquez ici pour voir le résultat.


 Question n°2

Voici la ligne de commande permettant d'extraire les mots qui finissent par "able" :

 Cliquez ici pour voir le résultat.

 


 Question n°3

Voici la ligne de commande permettant de compter le nombre de lignes, et donc de mots finissant par "able" :

 

Ils sont donc au nombre de 492. Le suffixe "able" permet de former des adjectifs.

Cliquez ici pour voir le résultat (le décompte des mots finissant par "able").

 


 Question n°4

Voici la ligne de commande permettant de compter le nombre de lignes, et donc de trouver le nombre de mots finissant par "eux" :

Ils sont donc au nombre de 363.

Cliquez ici pour voir le résultat.

 


 Question n°5

Voici la ligne de commande qui permet de trouver à la fois les mots se terminant par "able" et par "ible" :

Cliquez ici pour voir le résultat.

 

- Fin de la première partie -