Partie 2.1 : INITIATION A L'OUTIL CYGWIN

a.Exercice à partir du texte "le père Duchesne"

Première étape : faire cheminer Cygwin jusqu'au dossier contenant le texte sur lequel on veut travailler:



Une fois le texte identifié (cf. ligne en dessous "ls" qui permet d'afficher le contenu du dossier appelé "texte"), on peut commencer le filtrage de lignes en faisant débuter la commande par "egrep". Le nom du texte est à indiquer à la fin de la commande avec son extension : "duchn.txt". Et entre les deux éléments cités précédemment, le motif à taper s'exprimera de façons différentes en fonction du type précis de chaîne de caractère que l'on cherche.

Enoncé : Ecrire une commande qui permet de filtrer les lignes :

En effet, l'intérêt de Cygwin est notamment de permettre à quiconque souhaitant faire une recherche, de repérer les occurences d'un ou plusieurs mot(s) dans un texte et de les faire apparaître dans leurs cotextes d'origine.

1.contenant des mots commençant par « citoy ».


La chaîne de caractère que l'on cherche se met entre guillemets. "\b" est une fonction spécifique qui signifie une frontière de mot. Placé devant la chaîne de caractère, il signifie une frontière de début de mot.
Après avoir tapé entrée, le résultat s'affiche sous la ligne de commande ainsi :



2.contenant des mots commençant par « aristo ».


3.contenant des mots commençant par « bougre ».


La formule à partir du chevron sert tout à la fois à
- créer un fichier texte
- insérer les lignes du résultat dedans
- enregistrer le fichier - par défaut dans le dossier contenant le texte "Duchesne" - sous le nom de votre choix.
Voir le fichier contenant le résultat


4.qui parlent des « Sans-culottes ».


Cela marche aussi avec les noms composés, avec tirets. Les majuscules étant dans le texte duchn figurées par des étoiles devant le mot, il nous suffit d'en insérer une dans le motif devant la chaîne de caractères, sans oublier l'antislach devant l'étoile pour signifier que celle-ci n'est pas employée dans sa fonction, mais comme simple chaîne de caractère. Ce qui donne ça.


5.contenant une majuscule.


L'étoile équivaut en effet dans ce texte aux lettres majuscules.
Résultat.



6.contenant des mots qui se terminent par « er ».


Même chose que pour les trois premières requêtes, sauf qu'içi, c'est une frontière de fin de mot que l'on cherche. Le "\b" est donc à postposer à la chaîne de caractère, en l'occurrence "er".


7.contenant des mots qui parlent de «danger ».


On rencontre parmis les lignes filtrées certaines qui contiennent des dérivés morphologiques de "danger":

8.contenant des mots qui parlent de «patrie ».


Si l'on veut élargir le filtrage des dérivés du mot, il faut prévoir les variations sur l'axe paradigmatique : c'est ce que l'on fait avec les crochets qui signfient précisémment une alternative entre au moins deux chaînes de caractère.

9.contenant des mots qui parlent de « liberté ».


10.contenant des mots qui parlent de « temps ».Indiquer dans quels sens ce mot est employé.



Içi, on se rend compte des limites de l'outil de filtrage textuel car il prend en compte avant tout les unités de forme et non de sens et donc n'est pas aussi opérationnel pour une analyse sémantique qu'il ne l'est pour une analyse formelle.

11.contenant des mots qui parlent de « république ».


Autre contrainte : Cygwin ne connaît pas le caractère accentué. Le seul substitue possible quand le caractère en question est en milieu de mot, c'est de l'exprimer par le point (".") qui signifie "n'importe quelle chaîne de caractère, sauf le retour à la ligne". Et ça marche.

12.contenant des mots qui parlent de « trahison ».

b.Etude morphologique

Toujours avec Cygwin, on va analyser un texte autre : une liste ordonnée de mots extraits d'un dictionnaire que nous devons encore une fois avoir dans un repertoire de notre propre ordinateur dont nous allons indiquer à cygwin l'emplacement :


1.Combien de mots dans le fichier ?

Il ne s'agit plus içi de filtrer mais de compter quelque chose. On utilise donc la commande "wc". Ce quelque chose étant des mots, on tape "-w" à la suite. Enfin, il faut dire précisémment sur quel texte de notre répertoire on veut appliquer la commande.

Il y a donc un total 136252 mots contenus dans le fichier dico.

On peut aussi choisir d'imprimer le résultat dans un fichier prévu à cet effet grâce à la commande :

2.Avec la commande egrep extrayez les mots se terminant par -able. (Indiquez la ligne de commande).

Etape nécéssaire pour la suite de l'exercice

3.Combien y a-t-il de mots terminés par -able ? A quelle(s) partie(s) du discours sont-il rattachés ?

En effet, on ne peut appliquer la commander du décompte à des chaînes de caractère en particulier qu'en ayant au préalable isoler et placer ces patrons dans un fichier à part.(cf. question 3). Quant aux parties du discours, il s'agit essentiellement d'adjectifs et à de rares occasions, de noms :


4. Même question pour -eux.

1ère ligne : commande d'extraction du motif et envoi du résultat dans fichier texte.
2ème ligne : commande de décompte appliquée au fichier texte.
3ème ligne : résultat du décompte : il y a dans le dictionnaire 363 mots ayant pour suffixe "eux".

5.Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible: