Partie 2 : Modélisation XML

Sous Partie 1 : Commandes Unix

Recherches sur les données du texte du Père Duchêne:

  • contenant des mots commençant par « citoy ».
    egrep "\bcitoy[^ ,;.-]*" Duchn-utf8.txt > index.txt
  • contenant des mots commençant par « aristo ».
    egrep "\baristo[^ ,;.-]*" Duchn-utf8.txt > index.txt
  • contenant des mots commençant par « bougre ».
    egrep "\bbougre[^ ,;.-]*" Duchn-utf8.txt > index.txt
  • qui parlent des « Sans-culottes » .
    egrep "\bsans-culottes\b" Duchn-utf8.txt > index.txt
  • contenant une majuscule (attention, au format des majuscules dans le texte)
    egrep "\*[a-z]" Duchn-utf8.txt > index.txt
  • contenant des mots qui se terminent par « er » .
    egrep "er\b" Duchn-utf8.txt > index.txt
  • contenant des mots qui parlent de «danger » .
    egrep "danger" Duchn-utf8.txt > index.txt
  • contenant des mots qui parlent de «patrie ».
    egrep "patrie" Duchn-utf8.txt > index.txt
  • contenant des mots qui parlent de « liberté » .
    egrep "liberté" Duchn-utf8.txt > index.txt
  • contenant des mots qui parlent de « temps ». Indiquer dans quels sens ce mot est employé.
    egrep "temps" Duchn-utf8.txt > index.txt
    Principalement dans la notion de chronologie
  • contenant des mots qui parlent de « république ».
    egrep "république" Duchn-utf8.txt > index.txt
  • contenant des mots qui parlent de « trahison ».
    egrep "trahison" Duchn-utf8.txt > index.txt
  • contenant des séquences de mots comportant une forme négative : ne...pas, n’...pas, etc. (1 solution est donnée sur la page du cours)
    egrep "(ne|n'|non) ?\w(pas|plus)" Duchn-utf8.txt > index.txt

Recherches sur le fichier de dictionnaire:

  • Combien de mots dans le fichier ?
    wc -l dico.txt
    -> 136252
  • Avec la commande egrep extrayez les mots se terminant par -able. (Indiquez la ligne de commande).
    egrep "able\b" dico.txt
  • Combien y a-t-il de mots terminés par -able ?
    egrep -c "able\b" dico.txt
    -> 492
  • A quelle(s) partie(s) du discours sont-ils rattachés ?
    Ce sont principalement des adjectifs qualificatifs
  • Même question pour -eux.
    egrep -c "eux\b" dico.txt
    -> 363
  • Ils sont encore une fois pour la plupart des adjectifs qualificatifs
  • Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible:
    egrep "(a|i)ble\b" dico.txt

Sous Partie 2 : Modélisation XML.

Nous avons pris 10 mots sur le site de l'ATILF, puis nous les avons mis dans notre fichier XML, disponible ici
Nous avons suivis la structure du fichier xml donné en exemple. Donc, le fichier dtd n'a pas changé, et nous utilisons le fichier dtd fournis avec, que vous pouvez consulter ici
De même, comme nous avons respecté la structure de l'exemple, le schéma d'organisation des différents éléments du XML ne change pas non plus.