TD L3I02 2012/2013

Bricaud Anne-Christine

Retour Partie 2

Partie 2.1 : Exercices sur « Le Père Duschesne »

 

Rappel :

Les commandes unix de recherche, utilisant la commande egrep, ont la syntaxe suivante :

egrep_-option éventuelle_«motif de la recherche»_fichier dans lequel effectuer la recherche_>_fichier contenant les résultats de la recherche

_ correspond aux espaces.

 

 

Grâce au logiciel de programmation Cygwin et à la maîtrise des commandes unix, nous souhaitons filtrer des lignes contenant des termes précis présents dans le texte « Le Père Duschesne » (version texte brute), disponible ici.

 

 

EXERCICE 1

 

·        filtrage des lignes contenant des mots commençant par « citoy » :

Commande tapée :

\b permet de baliser le motif. Ainsi «\bX» permet de rechercher les termes commençant par X.

De même, «X\b» sélectionne les termes se terminant par X.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots commençant par « aristo » :

Commande tapée :

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots commençant par « bougre » :

Commande tapée :

Lien vers les résultats obtenus

 

 

·        filtrage des lignes qui parlent des « Sans-culottes » :

Commande tapée :

[*] indique la présence éventuelle de majuscule en début de mots.

En effet, dans Duchn-utf8.txt, les noms propres sont précédés d’un astérisque. Exemple : « *marat ».

[ sr] permet de cibler les recherches précisant que les noms peuvent être au singulier (suivis d’un espace), au pluriel (suivi d’un « s ») ou suivi d’un « r », comme dans « Sans-culotterie ».

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant une majuscule :

Commande tapée :

Comme nous l’avons vu précédemment, dans le texte Duchn-utf8.txt, les noms propres sont précédés d’un astérisque.

Afin de filtrer les lignes contenant des noms propres, il convient de rechercher les astérisques.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots se terminant par « er » :

Commande tapée :

\b étant une balise, placé à la fin d’un motif, il marque la fin du mot.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots qui parlent de « danger » :

Commande tapée :

En choisissant les mots commençant par « danger », on élargit la recherche aux mots dérivés de « danger » à l’instar de « dangereux », « dangereusement », etc…

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots qui parlent de « patrie » :

Commande tapée :

En précisant [eo], on obtient « patrie » mais aussi « patriotique ».

Il est inutile de préciser [d], puisque le mot « apatride » n’apparaît pas dans le texte.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots qui parlent de « liberté » :

Commande tapée :

lib[er][er] sélectionne les le radical suivi des lettres « e » ou « r » puis « e » ou « r ».

On obtient ainsi « libre », « liberté » et leurs dérivés.

| permet de proposer un deuxième radical à sa sélection, celui du verbe délivrer et de ses dérivés, qui ne peuvent pas être obtenus à partir de la premier radical.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots qui parlent du « temps » :

Commande tapée :

Il convient de préciser \b afin de ne pas obtenir « longtemps ».

De plus, en ajoutant [os], on s’attend à obtenir « temps », « temporel » et leurs dérivés.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots qui parlent de « république » :

Commande tapée :

Les accents n’étant pas reconnus par Cygwin, on remplace le « é » par un point, qui correspond à n’importe quel caractère.

On précise [cq] afin d’obtenir « république », « républicain » et leurs dérivés et non « republier » et ses dérivés.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des mots qui parlent de « trahison » :

Commande tapée :

| permet de propsoer deux formes à la sélection : celle de « trahir » et ses dérivés et celle de « traître » et ses dérivés.

Lien vers les résultats obtenus

 

 

·        filtrage des lignes contenant des séquences de mots comportant une forme négative :

Commande tapée :

La négation s’exprime de divers manières au moyen des adverbes de négation « ne », « ni » ou « n’ ».

Lien vers les résultats obtenus