Travail relatif au cours dispensé par Serge Fleury.

Partie 1 : filtrage UNIX [regexp, egrep]

1 - Exercices sur le « Père Duchesne »

=> Trouver des commandes basées sur "egrep" pour filtrer les lignes du texte "Père Duchesne" selon les caractères recherchés.

Question n°1: commande pour filtrer les lignes contenant des mots commençant par « citoy ».

Résultat de la commande n°1

Question n°2: commande pour filtrer les lignes contenant des mots commençant par « aristo ».

Résultat de la commande n°2

Question n°3: commande pour filtrer les lignes contenant des mots commençant par « bougre ».

Résultat de la commande n°3

Question n°4: commande pour filtrer les lignes qui parlent des « Sans-culottes ».

Résultat de la commande n°4

Question n°5: commande pour filtrer les lignes contenant une majuscule.

Résultat de la commande n°5

Question n°6: commande pour filtrer les lignes contenant des mots qui se terminent par « er ».

Résultat de la commande n°6

Question n°7: commande pour filtrer les lignes contenant des mots qui parlent de «danger ».

Résultat de la commande n°7

Question n°8: commande pour filtrer les lignes contenant des mots qui parlent de «patrie ».

Résultat de la commande n°8

Question n°9: commande pour filtrer les lignes contenant des mots qui parlent de « liberté ».

Résultat de la commande n°9

Question n°10: commande pour filtrer les lignes contenant des mots qui parlent de « temps ». Indiquer dans quels sens ce mot est employé.

Résultat de la commande n°10

Question n°11: commande pour filtrer les lignes contenant des mots qui parlent de « république ».

Résultat de la commande n°11

Question n°12: commande pour filtrer les lignes contenant des mots qui parlent de « trahison ».

Résultat de la commande n°12

Question n°13: commande pour filtrer les lignes contenant des séquences de mots comportant une forme négative : ne...pas, n’...pas, ....

Résultat de la commande n°13

2 - Etude morphologique

=> Etude morphologique du dico.txt à l'aide de la commande "egrep".

Question n°1 : Combien de mots dans le fichier ?

Commande et résultat :

Question n°2: Extraire les mots se terminant par -able.

Résultat de la commande

Question n°3 : Combien y a-t-il de mots terminés par -able ?

Commande et résultat :

Suite de la question n°3:

Résultat de la commande

Question n°4 : Combien y a-t-il de mots terminés par -eux ?

Commande et résultat :

Question n°5: Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible ?

ou alors:

Résultat des 2 commandes

Partie 2 : XML

1 - Construire des entrées structurées de dictionnaire.

Le thème choisi est celui de la puériculture, autrement dit, les entrées repérées dans le TLF correspondent à des objets qui entourent bébé.

L'arborescence de données définie pour mon dictionnaire est schématisée ci-dessous :

Vous pouvez consulter la documentation html détaillant ce schéma en cliquant sur le lien suivant :

Lien documentation

Voici une copie d'écran représentant une partie du fichier xml structuré de mon dictionnaire :

Ensuite, pour visualiser le fichier xml complet du dictionnaire de puériculture :

Cliquez ici !!

Voici une copie d'écran représentant la structure de la DTD de mon fichier xml :