Exercice 1: Regexp
Exercice 2: étude morphologique
Exercice 3: XML


Exercice I - Regexp

Après avoir installé Cygwin, on va l'utiliser pour chercher certains mots dans le texte du Père Duchesne.
La commande se construit de la manière suivante: egrep_"forme recherchée"_document de la recherche
Ici le document dans lequel on fera les recherches se nomme "duchn.txt" C'est pour cela qu'il figure à la fin de chaque commande.
J'ai surligné les commandes en rouge et les différentes occurences en jaune pour facilité la lecture.

1) contenant des mots commençant par "citoy":


On utilise la commande \b pour indiquer au programme que l'on cherche la suite de lettres "citoy" en
début de mot. Sans cette indication, les mots "concitoyen,ne,s"...
Cygwin fait donc sa sélection et trouve les différents formes commençant par "citoy".


2)
contenant des mots commençant par "aristo":


On réutilise la commande "\b" pour chercher les mots commençant par "aristo"
On remarque qu'il n'y a dans cet extrait ques des formes plurielles mais on pourrait trouver
"aristocrate" ou encore"aristocratie"...


3) contenant des mots commençant par "bougre":


On recherche les occurrences de "bougre"
On trouve la forme masculine singulier et pluriel mais on pourrait trouver "bougresse"

4) contenant des mots qui parlent des "Sans-culottes":


On recherche les occurrences de "sans-culottes"
Comme on met un "s" à "sans-culottes" on ne trouve que cette forme là et "sans-culotte" ne peut être
sélectionnée par Cygwin.

5) contenant une majuscule:


Utilisons maintenant une nouvelle commande "\*". L'étoile symbolise la majuscule, et la barre oblique,
comme dans les premières recherches, le début de mot.
C'est la mise en forme du texte qui symbolise la majuscule par l'étoile, ce n'est pas une commande de Cygwin.


6) contenant des mots qui se terminent par "er":


Jusqu'à présent on a cherché des occurrences en les sélectionnant par les lettres du début. Maintenant,
on va les sélectionner par les lettres finales."er" la fin de mot est indiqué par \b
 

7) contenant des mots qui parlent de «danger »:


Ici, on cherche "danger" peu importe sa place, ainsi on trouve le mot au pluriel et en adjectif.


8) contenant des mots qui parlent de "patrie":


En tapant "patrie" on ne trouve que "patrie"
  Il auait fallu chercher "patri" pour trouver "patriotique", "patriotisme"...

9) contenant des mots qui parlent de "liberté":


En cherchant "liber" on a trouvé "liberté" mais les mots libération aurait pu être trouvé par Cygwin.
Le mot "libération" ne peut être trouvé car l'accent le met à l'écart de la recherche.

10) contenant des mots qui parlent de "temps":


Ici, on a chercher les mots contenant temps".
Pour trouver les variantes "temporalité", "atemporel"... il faut chercher "temp" et pour éliminer "atemporel"
de la recherche il faut mettre la commande "\b" au début.


11) contenant des mots qui parlent de "république":


De même en tapant "r.publi" on utilise une nouvelle commande: .
Ce point peut remplacer n'importe quel caractère, cela permet donc d'éviter les problèmes d'accent.
En coupant la recherche après le -i on élargit la recherche et on inclut les mots tels que "républicains.


12) contenant des mots qui parlent de " trahison ":

En cherchant "trahison" on trouve les formes singulier et pluriel du terme.

 

13) contenant des séquences de mots comportant une forme négative : ne ...pas, n'...pas, etc.


Avec c'est commande, on demande à Cygwin de trouver un mot commençant par "n" suivit de "pas" avec entre les deux un nombre indéterminé de caractère.


Exercice - II - étude morphologique

Le second exercice a pour but étudier de façon morphologique les mots d'un dictionnaire qui ont été répertoriés dans le fichier dico.txt
Pour découvrir pas à pas les fonctions utilisées dans cygwin, on répondra aux questions de l'exercice:

1) Combien de mots dans le fichier?



La commande c permet de compter et w indique que ce sont les les mots qu'il faut compter.
Pour la première fois, on va créer un fichier "exo2" dasn lequel Cygwin mettra les résultats. Comme je n'ai pas écrit d'extension, l'odinateur demandera avec quoi l'ouvrir, le faire avec bloc-note.
Voici la réponse:



2) Avec la commande egrep extrayez les mots se terminant par -able. (Indiquez la ligne de commande)



et voici le genre de réponse que l'on obtient en ouvrant le fichier able.txt

explication
  /!\ le fichier est créé à coté de celui étudié. Pensez à lui donner un nom facilement repérable.

3) Les mots en -able

 - Combien y a-t-il de mots terminés par -able ?
 
On retrouve la commande -c et en ouvrant le document on a la réponse brève, concise et précise:

  et voilà! Il y a 492 mots se terminant par "able dans le fichier dico.txt!
  

  - A quelle(s) partie(s) du discours sont-il rattachés ?

Ce que l'on cherche, c'est simplement la catégorie gramaticale. On travaille ici avec le fichier "dico-etiquette"
qui se trouvait zippé avec "dico".
Le résultat a été envoyé dans le fichier exo2cat et en l'ouvrant on voit ceci et la liste est longue :


4) Les mots en -eux
Et hop! deux demandes à la suite:

On demande d'abord le nombre de mot se terminant par "eux", il y en a 363 (en jaune) puis la catégorie
grammaticale de ces mots en "eux" en cherchant dans le fichier "dico-etiquette" le tout dans un nouveau fichier
nommé euxcat.txt. En voici un extrait:



5) Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible:
Alors avec cette question on va utiliser une nouvelle commande permettant de donner les différentes possiblités de lettres à un endroit.

on a utilisé des crochets avec les deux lettres possibles à cet endroit : soit i, soit a.




IIIExercice sur les entrées d'un dictionnaire


 1 - Naviguer dans le TLF et y repérer une dizaine d’entrées (choisir une famille de mots dans un domaine de votre choix par exemple)
Essayer de dessiner une arborescence possible pour décrire ces données
Dans cet exercice on doit choisir dix entrées dans le même champs lexical, et les ranger comme dans un dictionnaire en utilisant le langage XML et dessiner une arborescence pour classer les données.
J'ai décidé de travailler sur les fruits, en voilà dix
-fraise
-mûre
-citron
-orange
-poire
-mangue
-prune
-noisette
-nois de cajou
-amande




 
2 - Essayer de construire une représentation structurée de vos entrées en utilisant le balisage XML (On pourra commencer par s’inspirer des ressources disponibles dans le dossier rep0 de l’archive)

En utilisant le balisage XML j'obtiens le résultat suivant:




3) Vérifier la bonne formation de votre fichier complet (avec toutes les entrées)

Voici le document en entier: ici





Accueil