Partie 1: CYGWIN

Exercice 2: étude du texte "Père Duchesne"

Ecrire une commande qui permet de filtrer les lignes

  • contenant des mots commençant par « citoy »: egrep « \bcitoy » Duchn-isolatin.txt

  • contenant des mots commençant par « aristo »: egrep « \baristo » Duchn-isolatin.txt

  • contenant des mots commençant par « bougre »: egrep « \bbougre » Duchn-isolatin.txt

  • qui parlent des « Sans-culottes »: egrep « \bculott » Duchn-isolatin.txt

  • contenant une majuscule (attention, au format des majuscules dans le texte): egrep « \* » Duchn-isolatin.txt

  • contenant des mots qui se terminent par « er »: egrep « er\b » Duchn-isolatin.txt

  • contenant des mots qui parlent de «danger »: egrep «danger» Duchn-isolatin.txt

  • contenant des mots qui parlent de «patrie »: egrep « patri[0e] » Duchn-isolatin.txt

  • contenant des mots qui parlent de « liberté »: egrep « libert. » Duchn-isolatin.txt

  • contenant des mots qui parlent de « temps ». Indiquer dans quels sens ce mot est employé.: egrep « \btemps\b » Duchn-isolatin.txt

  • contenant des mots qui parlent de « république »: egrep «r.publi » Duchn-isolatin.txt / egrep “r-publi” Dychn-utf8.txt

  • contenant des mots qui parlent de « trahison »: egrep « \tra.tr|\btrahi » Duchn-isolatin.txt

  • contenant des séquences de mots comportant une forme négative : ne...pas, n’...pas, etc.:  egrep « \bne\b|bn'\bn » Duchn-isolatin.txt



Exercice 2: étude morphologique

Question 1: combien de mots dans le fichier ?

Comme le montre l'image, la commande wc compte le nombre de mots dans le fichier dico.txt, qui est de 136252.



~~~~~~~~~~~~~~

Question 2: mots se terminant par -able?

La commande (qui n'apparait pas à l'image) qui donne la liste des mots se terminant par -able est la suivante:
"egrep "able\b" dico.txt



~~~~~~~~~~~~~~

Question 3:
combien de mots qui se terminent par -able?

La commande suivante répond à la question, qui est 492.



Et à quelles parties du discours ces mots appartiennent-ils?

La commance egrep "able_.*\b" dico-etiquette répond à cette question.



~~~~~~~~~~~~~~

Question 4: combien de mots se terminent par -eux? à quelles parties du discours appartiennent-ils?

Réponse première question: 363


Réponse deuxième question:


~~~~~~~~~~~~~~

Question 5: quelle commande permet d'extraire à la fois les mots se terminant par -able et -ible?

La commande qui répond à cette question est: egrep "ible\b|able\b" dico.txt. L'opérateur de regexp | signifie "ou".





Partie 2: XML


  •     Arborescence du dictionnaire:


  •     Représentation structurée des données:
Pour le code source, suivre ce lien: Code source
  •     Démarche: