Retour PLAN

Construire des entrées structurées de dictionnaire

RESSOURCES

Présentation de XML (Extensible Markup Language ou « langage extensible de balisage »)
Langage informatique de balisage générique. Il sert essentiellement à stocker/transférer des données de type texte Unicode structurées en champs arborescents. Ce langage est qualifié d'extensible car il permet à l'utilisateur de définir les balises des éléments.Ce langage est reconnaissable par son usage des chevrons (< >) encadrant les balises.

Pour réaliser cet exercice, nous avons d'abord commencer par chercher, dans le TLF (Trésor de la Langue Française), 10 entrées correspondant à 10 mots d'une même famille. Nous avons choisi 10 noms d'oiseaux.
A l'aide des ces entrées de dictionnaire, nous avons ensuite construit une arborescence possible pour décrire nos données.
Pour finir, nous avons essayer de construire une représentation structurée de vos entrées en utilisant le balisage XML.

Voici le déroulement de notre travail:

- Après avoir navigué dans le TFL, nous avons choisi les 10 entrées suivantes: (Cliquez sur l'image pour voir apparaître sa définition)

            
                         Avocette                                        Barge                                            Bondrée       

         
            Choucas                         Epervier                              Goéland                                    Ibis

         
                   Martin-Pêcheur                                     Mésange                                            Pivert       

- A l'aide de ces différentes entrées, nous avons réalisé l'arborescence suivante:

Notre arborescence a pour racine le dictionnaire qui est ici le TLF. Il se divise ensuite en plusieurs articles, comme dans notre cas en plusieurs noms d'oiseaux par exemple. Ensuite l'article en lui même est structuré en différentes parties telles que:
- la forme, qui correspond au nom de l'oiseau,
- la syntaxe,
- la définition,
- la bibliographie,
- la prononciation,
- l'orthographe,
- l'etymologie
- l'histoire,
- la fréquence littéraire
Certaines parties sont elles-mêmes encore divisées en plusieurs parties telles que la syntaxe qui se compose de la catégorie du mot et de son genre ou encore la définition qui se compose de l'espèce et de la description de l'oiseau

- Voici un aperçu de la représentation structurée de nos entrées en utilisant Nodepad ++:

- Voici un aperçu de la représentation structurée de nos entrées en utilisant le balisage XML:
Voici le résultat

- A l’aide d’outil spécialisé, construction de la DTD du fichier XML complet : Cliquez ici

- Vérification de notre DTD avec le site Validome :

- Validation de notre DTD par le site Validome :