>Partie 2

Liste des commandes permettant de filtrer les lignes suivantes

Voici 2 exercices d'application illustrant l'usage d'expressions régulières :

Exercice n°1 : Exercices sur le « Père Duchesne »

Texte de travail : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/corpus/duchn.txt

Ecrire une commande qui permet de filtrer les lignes :

Réponse 1

• contenant des mots commençant par « citoy »

Commande :

Lorsque "/b" se trouve devant une chaîne de caractères, il indique le début d'un mot; s'il se trouve derrière celle-ci, il indique la fin du mot.

Résultat de la commande

Réponse 2

• contenant des mots commençant par « aristo »

Commande :

Résultat de la commande

Réponse 3

• contenant des mots commençant par « bougre »

Commande :

Résultat de la commande

Réponse 4

• qui parlent des « Sans-culottes »

Commande :

Si "*" se trouve devant un caractère, cela indique que celui-ci est une majuscule. /!\ Format valable pour ce texte seulement.

Résultat de la commande

Réponse 5

• contenant une majuscule

Commande :

Si 2 caractères se trouvent entre crochets et séparés par un trait d'union, cela signifie : de ... jusqu'à ...

Résultat de la commande

Réponse 6

• contenant des mots qui se terminent par « er »

Commande :

Résultat de la commande

Réponse 7

• contenant des mots qui parlent de « danger »

Commande :

Résultat de la commande

Réponse 8

• contenant des mots qui parlent de « patrie »

Commande :

Résultat de la commande

Réponse 9

• contenant des mots qui parlent de « liberté »

Commande :

Résultat de la commande

Réponse 10

• contenant des mots qui parlent de « temps »

Commande :

Résultat de la commande

Réponse 11

• contenant des mots qui parlent de « république »

Commande :

"." remplace n'importe quel caractère

Résultat de la commande

Réponse 12

• contenant des mots qui parlent de « trahison »

Commande :

Résultat de la commande

Réponse 13

• contenant des séquences de mots comportant une forme négative : ne...pas, n’...pas, ....

Commande :

Résultat de la commande

Exercice n°2 : Etude morphologique

Texte de travail : http://tal.univ-paris3.fr/corpus/dico.zip ou http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/corpus/dico.zip

Réponse 1

Combien de mots dans le fichier ?

Commande :

egrep -c : compte le nombre de lignes (nous sommes ici en présence d'un texte de type dictionnaire donc 1 mot = 1 ligne)

commande :

wc -w : compte le nombre de mots (Word Count)

Résultat de la commande

Réponse 2

Avec la commande egrep extrayez les mots se terminant par -able

Commande :

Résultat de la commande

Réponse 3

Combien y a-t-il de mots terminés par -able ? A quelle(s) partie(s) du discours sont-il rattachés ?

Commande :

Résultat de la commande

Puis commande :

Résultat de la commande

Réponse 4

Même question pour -eux

Commande :

Résultat de la commande

Puis commande :

Résultat de la commande

Et commande :

Résultat de la commande

Réponse 5

Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible ?

Commande :

Résultat de la commande

Exercice n°3 : Construire des entrées structurées de dictionnaire

Ressources : le TLF (Trésor de la Langue Française) et les données disponibles dans le dossier rep0 contenu dans l’archive suivante : http://tal.univ-paris3.fr/corpus/ress-td-L3I01-XML.zip

XML (Extensible Markup Language ou « langage extensible de balisage ») est un langage informatique de balisage générique. Il sert essentiellement à stocker/transférer des données de type texte Unicode structurées en champs arborescents. Ce langage est qualifié d'extensible car il permet à l'utilisateur de définir les balises des éléments.

Voici 2 principes essentiels :

* la structure d'un document XML est définissable et validable par un schéma,

* un document XML est entièrement transformable dans un autre document XML.

Exercices à faire :

o Naviguer dans le TLF et y repérer une dizaine d’entrées : J'ai choisi dix noms d'arbres

Abricotier - Définition du TLFi.
Bananier - Définition du TLFi.
Cerisier - Définition du TLFi.
Cocotier - Définition du TLFi.
Noyer - Définition du TLFi.
Olivier - Définition du TLFi.
pêcher - Définition du TLFi.
poirier - Définition du TLFi.
pommier - Définition du TLFi.
prunier - Définition du TLFi.



o Essayer de dessiner une arborescence possible pour décrire ces données :

Schéma réalisé à l'aide du logiciel Gliffy

o Essayer de construire une représentation structurée de vos entrées en utilisant le balisage XML :

Voici l'arborescence XML d'une entrée