PARTIE 2 : Modélisation XML



    Partie 1 : exercice sur le texte du père Duchesne (texte version texte brut)


    La partie 1 de l’exercice 01 a pour objectif de mettre en place une commande qui permet de filtrer les lignes.

Pour ce faire, il faut :

  1. 1. utiliser la commande egrep qui utilise les expressions régulières pour extraire du fichier-texte  Duchn-utf8.txt les lignes qui comportent le motif entre guillemets, une ou plusieurs fois.

  2. 2. mettre en place un mécanisme de redirection de flux afin de consigner le résultat de chaque commande dans un fichier texte. Il suffit d’ajouter «>» suivi du nom du fichier-texte dans lequel on souhaite stocker les lignes.



            FILTRER LES LIGNES CONTENANT DES MOTS COMMENCANT PAR «CITOY»


           

     Cette ligne de code sélectionne comme motif tout mot comportant la suite de lettres «citoy».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «citoy», ce qui permet de sélectionner les mots comme «citoyen», «citoyenneté»,...

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



            FILTRER LES LIGNES CONTENANT DES MOTS COMMENCANT PAR «ARISTO»


          

      Cette ligne de code sélectionne comme motif tout mot comportant la suite de lettres «aristo».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «aristo», ce qui permet de sélectionner les mots comme «aristocrate», «aristocratie», voire même «aristochat» (bien que la probabilité d’en trouver une occurrence dans ce texte est quasi nulle)...    

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



            FILTRER LES LIGNES CONTENANT DES MOTS COMMENCANT PAR «BOUGRE»


           

      Cette ligne de code sélectionne comme motif tout mot comportant la suite de lettres «bougre».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «bougre», ce qui permet de sélectionner les mots comme «bougre», «bougrement»,... 

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.       



            FILTRER LES LIGNES QUI PARLENT DES SANS-CULOTTES


           

    Cette ligne de code sélectionne comme motif tout mot comportant les suites de lettres «sans-culotte» ou «Sans-culotte».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant la séquence entre guillemets. De plus, le signe «\» précise qu’il faut prendre «*» comme un caractère et non pas comme opérateur d’itération et les parenthèses qui encadrent l’ensemble précise donc que la commande doit ignorer la casse du «s» initial.

Cet ensemble permet de sélectionner autant «sans-culotte» ou «Sans-culotte» que «sans-culottes», «sans-culotterie»,...

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



            FILTRER LES LIGNES CONTENANT UNE MAJUSCULE


           

       Cette ligne de code sélectionne comme motif tout mot contenant une majuscule. En effet, il est possible de remarquer que, dans le texte, une majuscule X est matérialisée *x.

Les crochets posent une alternative et le tiret lie les deux extrémités de l’intervalle : cela concerne donc toutes les lettres minuscules de «a» à «z».

Le signe «\» précise qu’il faut prendre «*» comme un caractère et non pas comme opérateur d’itération.

L’absence de «\b» permet une totale liberté quant à la position de la majuscule dans le mot, ce qui permet de sélectionner les mots comme «Python», «pYthon», «pythoN»,...

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



            FILTRER LES LIGNES CONTENANT DES MOTS SE TERMINANT PAR «ER»


           

       Cette ligne de code sélectionne comme motif tout mot comportant la suite de lettres «er».

«\b» en position finale ajoute comme condition supplémentaire que cette suite soit située en fin de mot.

L’absence de «\b» en position initiale indique la possibilité d’un ou plusieurs caractères précédant «er», ce qui permet de sélectionner les mots comme «ramper», «ver»,...    

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



            FILTRER LES LIGNES QUI PARLENT DE DANGER


           

      Cette ligne de code sélectionne comme motif tout mot comportant la suite de lettres «danger».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «danger», ce qui permet de sélectionner le mot «danger» et ses dérivés comme «dangereux», «dangerosité»,...

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



            FILTRER LES LIGNES QUI PARLENT DE LIBERTE


           

     Cette ligne de code sélectionne comme motif tout mot comportant les suites de lettres «liber» ou «libér».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «lib[eé]r».

De plus, les éléments compris entre crochets indiquent une alternative et les parenthèses qui encadrent l’ensemble précise qu’elle est facultative, ce qui permet de sélectionner autant «liberté» et que ses dérivés comme «libérer», «libre», ...         

          

Veuillez trouver ici le lien vers la version téléchargeable du résultat. 



            FILTRER LES LIGNES QUI PARLENT DE TEMPS


           

    Cette ligne de code sélectionne comme motif tout mot comportant les suites de lettres «temps» ou «tempo».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «temp[so]».

De plus, les éléments compris entre crochets indiquent une alternative, ce qui permet de sélectionner autant «temps» et que ses dérivés comme «temporel», ... En effet, si les éléments entre crochets sont omis, des mots issus d’autres dérivations seront pris en considération comme «tempe», «tempérament»,...

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



            FILTRER LES LIGNES QUI PARLENT DE REPUBLIQUE


           

      Cette ligne de code sélectionne comme motif tout mot comportant les suites de lettres «républiq» ou «républic».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «républi[cq]».

De plus, les éléments compris entre crochets indiquent une alternative, ce qui permet de sélectionner autant «république» que ses dérivés comme «républicain», ...   

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat. 



            FILTRER LES LIGNES QUI PARLENT DE TRAHISON


           

      Cette ligne de code sélectionne comme motif tout mot comportant les suites de lettres «trahi» ou «traîtr».

«\b» en position initiale ajoute comme condition supplémentaire que cette suite soit située en début de mot.

L’absence de «\b» en position finale indique la possibilité d’un ou plusieurs caractères suivant «trahi» ou «traîtr».

De plus, la barre verticale «pose une alternative entre les éléments de gauche et ceux de droite, ce qui permet de sélectionner «trahison» mais aussi ses dérivés comme «trahi», et «traître» ...     

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.  



           FILTRER LES LIGNES CONTENANT UNE NEGATION


           

      Cette ligne de code sélectionne comme motif tout mot comportant la lettre «n» suivi d’un caractère qui peut être «e», «i» ou «‘». En effet, en français, une négation comporte nécessairement la particule «ne», «ni» ou «n’» puis falcultativement «pas», «plus», «point», «jamais»,...

«\b» en position initiale et finale  ajoute comme condition supplémentaire que le mot est uniquement constitué de deux caractères, le premier étant un «n».

De plus, les éléments compris entre crochets indiquent une alternative, ce qui permet de sélectionner «ne», «ni», ou «n’».

           

Veuillez trouver ici le lien vers la version téléchargeable du résultat.



    Partie 2 : étude morphologique


    La partie 2 de l’exercice 01 a pour objectif d’analyser un document, composé d’un liste de mots dont vous pouvez trouvez le lien ici, en répondant aux questions suivantes:


            Combien de mots dans le fichier ?


       

La première ligne de code utilise la commande «change directory» afin de choisir le dossier dans lequel on travaille.

La deuxième ligne de code utilse l’option -w afin de compter les mots compris dans le fichier dico.txt.



            Quels sont les mots qui se terminent par -able?


       

Cette ligne de code sélectionne comme motif tout mot comportant la suite de lettre «able», suivie ou non d’un «s».

«\b» en position finale ajoute comme condition supplémentaire que cette suite soit située en fin de mot. De plus, le point d’interrogation pose une alternative entre les formes au singulier et au pluriel.

Le signe «>» reporte le résultat dans un fichier texte créé par cette ligne de code.

Veuillez trouver ici le lien vers la version téléchargeable du résultat.


            Combien y a-t-il de mots terminés par -able? A quelle(s) partie(s) du discours sont-ils rattachés ?


       

Cette ligne de code utilise l’option -c afin de compter les lignes comportant le motif ci-dessus.

Le motif ci-dessus sélectionne essentiellement des adjectifs  (vénérable, stable, ...) et quelques rares noms (table, sable,...)



            Combien y a-til de mots qui se terminent par -eux? A quelle(s) partie(s) du discours sont-ils rattachés?


       

Cette ligne de code sélectionne comme motif tout mot comportant les suites de lettres «eux», «euse» ou «euses».

La barre verticale «pose une alternative entre les éléments de gauche et ceux de droite et les parenthèses posent les limites de la commande.

Le signe «>» reporte le résultat dans un fichier texte créé par cette ligne de code.

Veuillez trouver ici le lien vers la version téléchargeable du résultat.

       

Cette ligne de code utilise l’option -c afin de compter les lignes comportant le motif ci-dessus.

Le motif ci-dessus sélectionne essentiellement des adjectifs (peureux, généreux,...) mais également des noms (aveux, cieux,...) et des pronoms (ceux,...).



            Quelle commande permet d’extraire a la fois les mots se terminant par -able et ceux terminés par -ible?


         
   

    Cette ligne de code électionne comme motif tout mot comportant les suites de lettres «able» et «ible».

«\b» en position finale ajoute comme condition supplémentaire que cette suite soit située en fin de mot. De plus, le point d’interrogation pose une alternative entre les formes au singulier et au pluriel. Enfin, les éléments compris entre crochets indiquent une alternative, ce qui permet de sélectionner autant «corruptible» que «véritable».



 

EXERCICE 01 : les commandes Unix