Résultats partie 2

Regexp : Une expression régulière (ou expression rationnelle) est en informatique une chaîne de caractères que l’on appelle parfois un motif et qui décrit un ensemble de chaînes de caractères possibles selon une syntaxe précise. Leur puissance à décrire des ensembles réguliers justifie leur forte adoption en informatique. Les expressions régulières sont utilisées dans l’édition et le contrôle de texte ainsi que dans la manipulation de langues formelles que sont les langages de l’informatique.

Voici 2 exercices d'application illustrant l'usage d'expressions régulières :

Exercice n°1 : Exercices sur le « Père Duchesne »

Texte de travail : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/corpus/duchn.txt

Ecrire une commande qui permet de filtrer les lignes :

Réponse 1

• contenant des mots commençant par « citoy »

Commande :

Lorsque "/b" se trouve devant une chaîne de caractères, il indique le début d'un mot; s'il se trouve derrière celle-ci, il indique la fin du mot.

Résultat de la commande

Réponse 2

• contenant des mots commençant par « aristo »

Commande :

Résultat de la commande

Réponse 3

• contenant des mots commençant par « bougre »

Commande :

Résultat de la commande

Réponse 4

• qui parlent des « Sans-culottes »

Commande :

Si "*" se trouve devant un caractère, cela indique que celui-ci est une majuscule. /!\ Format valable pour ce texte seulement.

Résultat de la commande

Réponse 5

• contenant une majuscule

Commande :

Si 2 caractères se trouvent entre crochets et séparés par un trait d'union, cela signifie : de ... jusqu'à ...

Résultat de la commande

Réponse 6

• contenant des mots qui se terminent par « er »

Commande :

Résultat de la commande

Réponse 7

• contenant des mots qui parlent de « danger »

Commande :

Résultat de la commande

Réponse 8

• contenant des mots qui parlent de « patrie »

Commande :

Les caractères qui se trouvent entre crochets représentent les différentes possibilités de caractères à rechercher à cet endroit précis.

Résultat de la commande

Réponse 9

• contenant des mots qui parlent de « liberté »

Commande :

Résultat de la commande

Réponse 10

• contenant des mots qui parlent de « temps »

Commande :

Résultat de la commande

Réponse 11

• contenant des mots qui parlent de « république »

Commande :

"." remplace n'importe quel caractère

Résultat de la commande

Réponse 12

• contenant des mots qui parlent de « trahison »

Commande :

Résultat de la commande

Réponse 13

• contenant des séquences de mots comportant une forme négative : ne...pas, n’...pas, ....

Commande :

Résultat de la commande

Exercice n°2 : Etude morphologique

Texte de travail : http://tal.univ-paris3.fr/corpus/dico.zip ou http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/corpus/dico.zip

Réponse 1

Combien de mots dans le fichier ?

Commande :

egrep -c : compte le nombre de lignes (nous sommes ici en présence d'un texte de type dictionnaire donc 1 mot = 1 ligne)

Résultat de la commande

Ou commande :

wc -w : compte le nombre de mots (Word Count)

Résultat de la commande

Réponse 2

Avec la commande egrep extrayez les mots se terminant par -able

Commande :

Résultat de la commande

Réponse 3

Combien y a-t-il de mots terminés par -able ? A quelle(s) partie(s) du discours sont-il rattachés ?

Commande :

Résultat de la commande

Puis commande :

Résultat de la commande

Réponse 4

Même question pour -eux

Commande :

Résultat de la commande

Puis commande :

Résultat de la commande

Et commande :

Résultat de la commande

Réponse 5

Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible ?

Commande :

Résultat de la commande

Exercice n°3 : Construire des entrées structurées de dictionnaire

Ressources : le TLF (Trésor de la Langue Française) et les données disponibles dans le dossier rep0 contenu dans l’archive suivante : http://tal.univ-paris3.fr/corpus/ress-td-L3I01-XML.zip

XML (Extensible Markup Language ou « langage extensible de balisage ») est un langage informatique de balisage générique. Il sert essentiellement à stocker/transférer des données de type texte Unicode structurées en champs arborescents. Ce langage est qualifié d'extensible car il permet à l'utilisateur de définir les balises des éléments.

Voici 2 principes essentiels :

* la structure d'un document XML est définissable et validable par un schéma,

* un document XML est entièrement transformable dans un autre document XML.

Exercices à faire :

o Naviguer dans le TLF et y repérer une dizaine d’entrées : J'ai choisi des noms d'animaux

1. Mule        6. Truie

2. Goret       7. Héron

3. Anesse     8. Brochet

4. Jument     9. Ragondin

5. Jar          10. Fennec

o Essayer de dessiner une arborescence possible pour décrire ces données :

Schéma réalisé à l'aide du logiciel Gliffy

o Essayer de construire une représentation structurée de vos entrées en utilisant le balisage XML :

Arborescence XML

o A l’aide d’outil spécialisé, construire la DTD de votre fichier XML complet : http://www.hitsw.com/xml_utilites/

Voici un extrait de la capture DTD de mon fichier XML.