I. Unix et XML

Cette première grande partie se compose de trois exercices différents. Tout d’abord, grâce aux logiciels Cygwin et Antconc, nous verrons dans les deux premiers exercices comment utiliser des commandes permettant d’extraire des mots ou des morphèmes lexicaux et grammaticaux. Et ensuite, dans le dernier exercice, nous verrons comment structuré un document XML.

 

Partie 1

2.1 Exercices sur le « Père Duchesne »

 

lepèreduchesne.png

 

Question n°1 :

Filtrer les lignes contenant des mots commençant par « citoy »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°2 :

Filtrer les lignes contenant des mots commençant par « aristo »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

                                         

Question n°3 :

Filtrer les lignes contenant des mots commençant par « bougre »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°4 :

Filtrer les lignes qui parlent des « Sans-culottes »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°5 :

Filtrer les lignes contenant une majuscule

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°6 :

Filtrer les lignes contenant des mots qui se terminent par « er »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°7 :

Filtrer les lignes contenant des mots qui parlent de « danger »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°8 :

Filtrer les lignes contenant des mots qui parlent de « patrie »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°9 :

Filtrer les lignes contenant des mots qui parlent de « liberté »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°10 :

Filtrer les mots qui parlent de « temps ». Indiquer dans quel sens ce mot est employé.

Dans le texte, le mot « temps » est employé sous plusieurs sens : le « temps » actuel (ex : « il est temps ! »), le « temps » c’est-à-dire l’époque (« temps de malheur ») ou encore par exemple le « temps » météorologique.

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°11 :

Filtrer les lignes contenant des mots qui parlent de « république »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°12 :

Filtrer les lignes contenant des mots qui parlent de « trahison »

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

Question n°13 :

Filtrer les lignes contenant des séquences de mots comportant une forme négative : ne…pas, n’…pas, etc.

                Commande

                Résultat avec egrep

                Résultat avec Antconc

 

 

 

2.2 Etude morphologique

 

Outils utilisés : Antconc antconcphoto.gif et Cygwincygwin.png

 

Question n°1 :

On trouve dans le fichier 136252 mots dans le fichier dico.txt, la commande egrep permettant de trouver ceci est ICI.

 

Complément de la question1 réalisé avec Antconc : ICI.

 

Question n°2 :

 La ligne de commande permettant de trouver les mots se terminant par « –able » est ICI et tous les mots trouvés sont ICI et sont au nombre de 492.

 

Question n°3 :

La commande nous permettant de trouver combien il y a de mots terminés par « -able » est ICI.  Avec la liste des mots obtenus, on peut remarquer que tous les mots terminant par « -able » dans ce texte sont des adjectifs.

 

Complément des questions 2 et 3 réalisé avec Antconc : ICI.

 

Question n°4 :

La commande nous permettant de trouver combien il y a de mots terminés par «-eux » est ICI.  Avec la liste des mots obtenus, on peut remarquer que tous les mots terminant par « -eux » dans ce texte sont des noms et des adjectifs.

 

Complément de la question 4 réalisé avec Antconc : ICI.

 

Question n°5 :

La commande permettant d’extraire à la fois les mots se terminant par « -able » et ceux se terminant par « -ible » est la suivante : CLIQUEZ ICI. Résultat de la commande : ICI.

 

Complément de la question 5 réalisé avec Antconc : ICI.

 

 

 

Partie 2

3.1 Construire des entrées structurées de dictionnaire

 

dictionnaire.jpg

 

Ressources : Le TLF (Trésor de la Langue Française) .

XML (Extensible Markup Language ou « langage extensible de balisage ») est un langage informatique de balisage générique. Il sert essentiellement à stocker/transférer des données de type texte Unicode structurées en champs arborescents. Ce langage est qualifié d'extensible car il permet à l'utilisateur de définir les balises des éléments.

 

Exercice à faire :

·         Naviguer dans le TLF et y repérer une dizaine d’entrées. En ce qui me concerne, j’ai décidé d’utiliser des noms d’animaux.

 

 

1. loup

 

imageloup.jpg

 

3. jument

 

imagejument.jpg

 

5. léopard

 

imageleopard.gif

 

7. gazelle

 

imagegazelle.jpg

 

9. panthère

 

imagepanthère.jpg

 

2. éléphant

 

imageelephant.jpg

 

4. girafe

 

imagegirafe.jpg

 

6. zèbre

 

imagezebre.jpg

8. guépard

 

imageguépard.jpg

 

 

10. autruche

 

imageautruche.jpg

 

 

 

 

·         Essayer de dessiner une arborescence pour décrire ces données. Mon arborescence se trouve ICI. (schéma réalisé à partir du logiciel Bubbl us)

·         ­Essayer de construire une représentation structurée de vos entrées en utilisant le balisage XML (On pourra commencer par s’inspirer des ressources disponibles dans le dossier rep0 de l’archive)

La représentation structurée de mes entrées se trouve ICI

·         A l’aide d’outil spécialisé, construire la DTD de votre fichier XML complet : http://www.hitsw.com/xml_utilites/

Ma DTD de mon fichier XML se trouve ICI.

 

 

 

 

 

 

 

 

Retour | Accueil