Retour Partie 2

Requêtes Texte Brut

Exercice 1

capture d'écran

Grâce à la commande "egrep", on a extrait toutes les lignes contenant la chaîne de caractères "citoy" en début de mot, puis on a envoyé le résultat dans un fichier texte dont vous pouvez voir un extrait ci-dessous :

capture d'écran

On a aussi testé le logiciel Antconc qui a l'avantage de posséder une interface graphique et qui nous donne (après avoir activé la reconnaissance d'expressions régulières) à peu près le même résultat, mettant de plus en évidence les occurrences recherchées :

capture d'écran

Exercice 2

capture d'écran

Ici, nous avons tapé quasiment la même ligne de commande en remplaçant simplement "citoy" par "aristo", ce qui nous renvoie les phrases parlant de citoyens, citoyenneté, etc. Une fois encore, le flux de sortie a été envoyé vers un fichier texte qui affiche les lignes comprenant la chaîne de caractères recherchée :

capture d'écran

Enfin, nous avons à nouveau comparé les résultats avec ceux de Antconc, qui sont sensiblement identiques.

capture d'écran

Exercice 3

capture d'écran

Voici une troisème recherche portant sur des mots "commançant par...". La ligne de commande reste quasi identique, le fichier créé pour récupérer le flux de sortie présente les lignes contenant un mot commençant par "bougre". Et bien sûr la même recherche avec Antconc.

capture d'écran

capture d'écran

Exercice 4

capture d'écran

Ici, on nous demandait d'afficher les lignes parlant de Sans-culottes. Le texte datant de la Révolution française et n'abordant pas des sujets tels que l'habillement ou la lingerie, j'ai opté pour la recherche de l'occurrence des caractères "culotte" ce qui inclut des termes comme "sans-culotterie" qui portent aussi sur les Sans-Culottes.

capture d'écran

capture d'écran

Exercice 5

capture d'écran

Ici l'exercice consistait à rechercher les lignes contenant des majuscules. Le document ayant été modifié pour remplacer toutes les majuscules par une minuscule précédée du caractère *, j'écris une expression régulière qui recherche ce caractère (il faut le faire précéder d'un caractère d'échappement car "*" a sa propre signification dans les expressions régulières) suivi de n'importe quelle lettre minuscule de l'alphabet, y compris les quelques caractères accentués auxquels j'ai pensé. Dans l'idéal, il faudrait bien sûr tous les inclure.
Encore une fois, vous pouvez voir un extrait du fichier texte qui reçoit le flux de sortie, ainsi que le résultat qu'offre l'interface Antconc.

capture d'écran

capture d'écran

Petite pause blagounette
Vous avez sans doute entendu parler de Paf le chien, non ?
Mais connaissez vous l'histoire de Path le chemin ?
Je sors.

Exercice 6

capture d'écran

A l'inverse des premiers exercices, il était ici demandé de trouver les lignes contenant des mots terminant par -er. Cette fois on a donc la marque de fin de mot après ces deux caractères. On peut observer en sortie notamment des verbes à l'infinitif, des adjectifs et des substantifs.

capture d'écran

capture d'écran

Exercice 7

capture d'écran

Pour obtenir les mots de la famille de danger, j'ai choisi de ne rechercher que la chaîne de caractères "danger", jugeant que cela avait peu de chances de renvoyer des résultats ne correspondant pas à la recherche et que certains mots de la famille qui m'auraient échappés seraient ainsi reconnus (par exemple, peut-être existe-t-il des mots de la famille possédant un préfixe auxquels je ne pense pas et qui seraient tout de même inclus dans le flux de sortie puisque je n'ai pas indiqué que la chaîne de caractères se situait en début de mot).

capture d'écran

capture d'écran

Exercice 8

capture d'écran

Afin de trouver les lignes parlant de patrie, j'ai demandé avec egrep de repérer la chaîne de caractères "patri" suivie de l'une des lettres suivantes : e, o ou d. En effet cela rassemble des mots tels que "patrie", "patriote" et "apatride", ce dernier mot étant aussi la raison de l'absence de marque de début de mot avant la chaîne de caractères.

capture d'écran

capture d'écran

On aurait pu se contenter de rechercher les occurrences de la chaîne de caractères "patri", me direz-vous. Mais dans ce cas, on observe une différence du nombre d'occurrences (par exemple dans Antconc qui possède un champ avec ce nombre, ou encore avec l'option -n d'egrep qui numérote les lignes en plus de les afficher). Or si l'on cherche un peu pour voir ce qui est reconnu en plus par la commande, on s'aperçoit que c'est le substantif "patriarche", qui ne porte pas le même sens que les autres mots :

capture d'écran

Exercice 9

capture d'écran

Ici, pour trouver les lignes parlant de liberté, on cherche les occurrences de la chaîne de caractères "lib" en début de mot (pour éviter de tomber sur des mots de type "délibérément" qui font partie de la même famille mais n'abordent pas vraiment le thème de la liberté), chaîne de caractères qui peut être suivie d'un r, d'un e ou d'un é (libre, liberté, libéré et dérivés). Ci-après, les résultats envoyés vers un document texte et les résultats avec Antconc :

capture d'écran

capture d'écran

Exercice 10

capture d'écran

Cette fois, on cherche les lignes qui parlent de temps, on indique donc en ligne de commande qu'il faut rechercher les occurrences de la chaîne de caractères "temp" suivie d'un s ou d'une o (pour "temporel" par exemple). Vous avez ci-dessous les résultats dans un .txt puis les résultats avec contexte mis en évidence dans Antconc. On s'aperçoit que le mot "temps" apparaît surtout dans des expressions figées ou littérales sur le temps qui passe, mais aussi sur la météo (en expression figée en l'occurrence : avant dernière ligne dans Antconc).

capture d'écran

capture d'écran

Exercice 11

capture d'écran

Ici, on cherche les mots en rapport avec la République, on a donc inclut les mots commençant par "républic" afin ne pas laisser de côté les mots de type "républicain". Vous voyez ci-dessous les résultats dans Antconc.

capture d'écran

Exercice 12

capture d'écran

Pour trouver les lignes parlant de trahison, on recherche les occurrences de mots tels que "traître", "trahison", "trahir", etc.

capture d'écran

capture d'écran

Exercice 13

capture d'écran

Enfin, on cherche les lignes contenant des négations. J'ai effectué mes essais dans Antconc car les résultats sont rapide et facilement lisibles. Cette expression régulière est, selon moi, une de celles qui restent simple, sans laisser trop de côté et sans inclure (trop) de pollution.

capture d'écran

capture d'écran