XML - TP

Maîtrise TAL



home

contact

outils

xml

xslt

xpath


 

 

XSLT


Tp n°2 : Préparation du corpus Le Petit Prince


CONSIGNES:

  • renommer sainte.xml,
  • supprimer le lien à la DTD,
  • insérer les informations dans l'entête
  • ajouter l'attribut LOC aux paragraphes,
  • faire un document bien formé,
  • faire un document valide

Explications:

La modification du document porte sur le contenu des éléments suivants: auteur, date. On utilise le logiciel Cooktop. Pour supprimer le lien à la DTD, on modifie dans le prologue la valeur de l'attribut standalone (YES) qui précise que le document n'a pas recours à une DTD. On peut ainsi supprimer la ligne faisant référence à la DTD
" " !DOCTYPE texte SYSTEM "saintex.dtd" "
qui ne sert plus à rien. L'ajout d'un attribut " loc " à l'élément paragraphe est réalisé grâce à l'utilisation des expressions régulières. Dans un éditeur de texte : remplacement de la chaîne de caractère :
"/paragraphe*phrase loc="narrateur " par " /paragraphe loc="narrateur"*phrase loc="narrateur/ ".

La phase suivante consiste à vérifier que le document obéit aux règles du langage Xml:
  • Toutes les balises ouvertes ont leur balise de fermeture,
  • Tous les attributs sont inclus entre guillemets,
  • L'emboîtement des balises est respecté,
  • Entre la balise d'ouverture et celle de fermeture, il n'y a pas de symboles inutiles car Xml prend en compte tous les symboles (tabulation, espaces…) Le document est bien formé s'il répond à ces conditions.
    Un document est dit valide s'il respecte le standard Xml et la grammaire décrite par la DTD qui l'accompagne. Ainsi on peut lier le corpus saintex.xml à un DTD générée grâce à XmlSpy, et en modifiant le prologue avec les lignes:
    <?xml version="1.0" encoding="iso-8859-1" standalone="no"?>
    <!DOCTYPE texte SYSTEM "saintex.dtd>


  • XML

    XSLT

    XPATH