Secteur TAL Informatique
ILPGA Université Paris 3
Parcours TAL : step 2
Expressions régulières, Systèmes d'exploitation
GREP, EGREP
Présentation des expressions régulières
On pourra se reporter à la présentation des expressions régulières faites sur : Transparents Expressions régulières avec Word et Emacs
Word et les expressions régulières
Manipulations des expressions régulières avec WORD.
Critères de recherche élaborés
Vous pouvez affiner votre recherche en utilisant des opérateurs
et des expressions dans la zone "Rechercher". Un opérateur est un
symbole qui contrôle la recherche, et une expression est une
combinaison de caractères et d'opérateurs spécifiant
un modèle.Pour
utiliser les opérateurs, vous devez activer la case à
cocher "Critères spéciaux" dans la boîte de dialogue
Rechercher ou Remplacer
(menu Edition). Pour insérer un opérateur, choisissez
"Spécial", puis sélectionnez l'opérateur voulu dans
la liste, ou tapez-le
directement dans la zone "Rechercher".Word vous permet d'utiliser des
critères de recherche élaborés dans la zone "Rechercher"
de la boîte de dialogue Rechercher ou Remplacer (menu Edition),
ainsi que dans la zone "Contenant le texte" de l'onglet Résumé
(boîte de dialogue Recherche approfondie, (commande Fichier Chercher).
Voir Boîte de dialogue Recherche approfondie.
Pour rechercher
Opérateur
Exemples
N'importe quel caractère ?
sa?le recherche "sable","saule" et
unique
"salle".
N'importe quelle chaîne *
a*r recherche, entre autres,
de caractères
"affiner", "accoudoir" et "autour".
Un des caractères
[ ]
s[ea]c recherche "sec" et "sac".
spécifiés
N'importe quel caractère [-]
tou[r-t] recherche "tour", "tous"
unique dans cette
et "tout". Les sélections doivent
sélection
être en ordre croissant.
N'importe quel caractère [!]
[!j]oie recherche "voie" et
unique sauf les
"soie", mais pas "joie".[!dm]alle
caractères à l'intérieur
recherche "balle" et "salle", mais
des crochets
pas "dalle" ou "malle".
N'importe quel caractère [!x-z]
pa[!j-t]e recherche "page" et
unique, sauf les
"paie", mais pas "pale" ou "pape".
caractères à l'intérieur
des crochets
Exactement n occurrences {n}
car{2} recherche, entre autres,
du caractère précédent
"carré" et "carrousel", mais pas
ou de l'expression
"carotte".
précédente
Au moins n occurrences {n;}(si ";" est
can{1;}e recherche "cane" et
du caractère précédent
votre séparateur de "canne".
ou de l'expression
liste par défaut)
précédente
De n à m occurrences
{n;m}(si ";" est 10{1;3} recherche
"10", "100" et
du caractère précédent
votre séparateur de "1000".
ou de l'expression
liste par défaut)
précédente
1 ou plusieurs
@
cal@e recherche "calle" et "cale".
occurrences du caractère
précédent ou de
l'expression précédente
Le début d'un mot
<
<(inter) recherche, entre autres,
"intercepter" et "interdit", mais
pas "éreinter".
La fin d'un mot
>
(in)> recherche, entre autres,
"parrain" et "loin", mais pas
"inverti".
Pour utiliser l'un des opérateurs comme simple caractère,
faites-le précéder du signe barre oblique inverse (\) dans
la zone
"Rechercher" ou "Remplacer par". Par exemple, pour chercher un point
d'interrogation, tapez \? dans la zone "Rechercher". Un
autre opérateur que vous pouvez utiliser dans la zone "Remplacer
par" est l'opérateur \num. Ce dernier réorganise les expressions
de la zone "Rechercher" dans l'ordre que vous avez indiqué dans
la zone "Remplacer par". Si vous avez tapé (Christiane) (Berger)
dans la zone "Rechercher", puis que vous tapez \2 \1 dans la zone "Remplacer
par",
le texte "Christiane Berger" est remplacé par
"Berger Christiane".
Voir aussi : Recherche et remplacement, Recherche et gestion de documents
Emacs et les expressions régulières
Emacs est un éditeur issu du monde Unix, mais aussi disponible sur PC et Mac, qui permet la manipulation des expressions régulières.
Édition de fichiers avec EMACS
Pour créer, puis modifier un fichier on utilise un éditeur de texte, c'est à dire un programme spécialisé dans l'édition de texte.
L'éditeur présenté ici s'appelle emacs.
Sur les PCs du laboratoire, on le lance avec via le menu "Démarrer" puis "Programmes", "Gnu Emacs" et "Emacs".
Normalement une nouvelle fenêtre apparaît. Si on tape du texte dedans, il y reste. Plus précisément, il reste dans une zone de la mémoire d'emacs appelée un buffer. L'éditeur de texte comprend en outre des combinaisons de touches spéciales qui facilitent l'édition.
Principales commandes avec EMACS
- Ctrl-b
- Reculer d'un caractère.
- Ctrl-f
- Avancer d'un courante.
- Ctrl-d
- Effacer le caractère sous le curseur.
- Backspace
- Effacer le caractère avant le curseur.
- Ctrl-p
- Monter d'une ligne.
- Ctrl-n
- Descendre d'une ligne.
- Ctrl-k
- Effacer la ligne courante
- Ctrl-y
- Restaurer la dernière ligne effacée.
- Ctrl-_
- Défaire ce que vous venez de faire (peut être répété).
- Ctr-x Ctrl-c
- Quitter emacs.
- Ctrl-x Ctrl-b
- Donner une liste des buffers.
- Ctrl-x b
- Changer le buffer courant (on peut aussi y aller à la souris si le buffer est visible).
- Ctrl-g
- Quand ça va mal.
Pour saugarder un fichier sous emacs, les commandes élémentaires
de gestion de fichier sont :
- Ctrl-x Ctrl-s
- Sauver le buffer (un nom de fichier est demandé la première fois).
- Ctrl-x Ctrl-w
- Sauver le buffer dans un autre fichier.
- Ctrl-x Ctrl-v
- Lire un autre fichier dans le buffer.
- Ctrl-x Ctrl-f
- Lire un autre fichier dans un nouveau buffer.
Si vous vous trompez, ou voulez recommencer une commande déjà
exécutée, inutile de tout retaper, vous pouvez entrer les
combinaisons de touches suivantes :
- Ctrl-b
- Reculer dans la ligne de commande courante.
- Ctrl-f
- Avancer dans la ligne de commande courante.
- Ctrl-d
- Effacer le caractère à droite du curseur.
- Backspace
- Effacer le caractère à gauche du curseur.
- Tab
- Complétion automatique des commandes et noms de fichiers (?).
- Ctrl-p
- Commande précédente dans l'historique de vos commandes.
- Ctrl-n
- Commande suivante dans l'historique.
La manipulation des expressions régulières se fait via le menu de recherche de caractères
La première partie du TP2 est à faire avant de passer à la suite.
Systèmes d'exploitation
Transparents Système d'exploitation : slideOS
Les utilitaires utilisés (GREP et EGREP) pour manipuler
des expressions régulières sont issus du monde UNIX.
Ces utilitaires permettent de rechercher dans des fichiers des lignes
contenant un motif donné. Ils sont aussi disponibles dans le monde
PC ou MAC.
Leur utilisation implique que l'on maîtrise les systèmes
d'exploitation sur lesquels on les utilise et les expressions régulières.
Les outils utilisés au laboratoire sont accessibles sous Windows,
sous le DOS ou via une interface Unix (commandes utilisateurs).
- Présentation de Windows 95 (présentation faite par les ateliers d'informatique de la Faculté Saint Jean)
- Présentation rapide d'Unix.
GREP et EGREP
Lire la présentation du cours faite sur le site TAL pour une présentation des expressions régulières.
Expressions régulières : aide-mémoire
OP...RATEUR FONCTION
EXEMPLE
.
joker
80.86 suites 80186, 80a86,
etc.
*
0 ou n fois
.* n caractères
+
1 ou n fois
-+ suite
non nulle de tirets
[]
classe de caractères [-=:]
soit -, soit =, soit :
[^]
complémentaire [^ ]+
suite de caractères
à l'exclusion du
blanc
^
début de ligne ^[^ ]+
suite de caractères
à l'exclusion du
blanc en début de ligne
$
fin de ligne ^$
ligne vide
|
ou
chapitre|sec
tion
\
sens littéral d'un \.
le point
caractère spécial
()
groupement
19(89|90)
d'expressions
\{n,m\} entre n et m
\*\{4,10\} entre 4 et 10 étoiles
occurrences
?
zéro ou une
occurrence
La suite du TP2 concerne GREP et EGREP.