Secteur TAL Informatique

ILPGA Université Paris 3

Parcours TAL : step 2

Expressions régulières, Systèmes d'exploitation

GREP, EGREP

Présentation des expressions régulières

On pourra se reporter à la présentation des expressions régulières faites sur : Transparents Expressions régulières avec Word et Emacs

Word et les expressions régulières

Manipulations des expressions régulières avec WORD.

Critères de recherche élaborés

Vous pouvez affiner votre recherche en utilisant des opérateurs et des expressions dans la zone "Rechercher". Un opérateur est un
symbole qui contrôle la recherche, et une expression est une combinaison de caractères et d'opérateurs spécifiant un modèle.Pour
utiliser les opérateurs, vous devez activer la case à cocher "Critères spéciaux" dans la boîte de dialogue Rechercher ou Remplacer
(menu Edition). Pour insérer un opérateur, choisissez "Spécial", puis sélectionnez l'opérateur voulu dans la liste, ou tapez-le
directement dans la zone "Rechercher".Word vous permet d'utiliser des critères de recherche élaborés dans la zone "Rechercher"
de la boîte de dialogue Rechercher ou Remplacer (menu Edition), ainsi que dans la zone "Contenant le texte" de l'onglet Résumé
(boîte de dialogue Recherche approfondie, (commande Fichier Chercher). Voir Boîte de dialogue Recherche approfondie.

Pour rechercher            Opérateur              Exemples
N'importe quel caractère   ?                      sa?le recherche "sable","saule" et
unique                                            "salle".
N'importe quelle chaîne    *                      a*r recherche, entre autres,
de caractères                                     "affiner", "accoudoir" et "autour".
Un des caractères          [ ]                    s[ea]c recherche "sec" et "sac".
spécifiés
N'importe quel caractère   [-]                    tou[r-t] recherche "tour", "tous"
unique dans cette                                 et "tout". Les sélections doivent
sélection                                         être en ordre croissant.
N'importe quel caractère   [!]                    [!j]oie recherche "voie" et
unique sauf les                                   "soie", mais pas "joie".[!dm]alle
caractères à l'intérieur                          recherche "balle" et "salle", mais
des crochets                                      pas "dalle" ou "malle".
N'importe quel caractère   [!x-z]                 pa[!j-t]e recherche "page" et
unique, sauf les                                  "paie", mais pas "pale" ou "pape".
caractères à l'intérieur
des crochets
Exactement n occurrences   {n}                    car{2} recherche, entre autres,
du caractère précédent                            "carré" et "carrousel", mais pas
ou de l'expression                                "carotte".
précédente
Au moins n occurrences     {n;}(si ";" est        can{1;}e recherche "cane" et
du caractère précédent     votre séparateur de    "canne".
ou de l'expression         liste par défaut)
précédente
De n  à  m occurrences     {n;m}(si ";" est       10{1;3} recherche "10", "100" et
du caractère précédent     votre séparateur de    "1000".
ou de l'expression         liste par défaut)
précédente
1 ou plusieurs             @                      cal@e recherche "calle" et "cale".
occurrences du caractère
précédent ou de
l'expression précédente
Le début d'un mot          <                      <(inter) recherche, entre autres,
                                                  "intercepter" et "interdit", mais
                                                  pas "éreinter".
La fin d'un mot            >                      (in)> recherche, entre autres,
                                                  "parrain" et "loin", mais pas
                                                  "inverti".
Pour utiliser l'un des opérateurs comme simple caractère, faites-le précéder du signe barre oblique inverse (\) dans la zone
"Rechercher" ou "Remplacer par". Par exemple, pour chercher un point d'interrogation, tapez \? dans la zone "Rechercher". Un
autre opérateur que vous pouvez utiliser dans la zone "Remplacer par" est l'opérateur \num. Ce dernier réorganise les expressions
de la zone "Rechercher" dans l'ordre que vous avez indiqué dans la zone "Remplacer par". Si vous avez tapé (Christiane) (Berger)
dans la zone "Rechercher", puis que vous tapez \2 \1 dans la zone "Remplacer par", le texte "Christiane Berger" est remplacé par
"Berger Christiane".

Voir aussi : Recherche et remplacement, Recherche et gestion de documents


 

Emacs et les expressions régulières

Emacs est un éditeur issu du monde Unix, mais aussi disponible sur PC et Mac, qui permet la manipulation des expressions régulières.

Édition de fichiers avec EMACS

Pour créer, puis modifier un fichier on utilise un éditeur de texte, c'est à dire un programme spécialisé dans l'édition de texte.

L'éditeur présenté ici s'appelle emacs.

Sur les PCs du laboratoire, on le lance avec via le menu "Démarrer" puis "Programmes", "Gnu Emacs" et "Emacs".

Normalement une nouvelle fenêtre apparaît. Si on tape du texte dedans, il y reste. Plus précisément, il reste dans une zone de la mémoire d'emacs appelée un buffer. L'éditeur de texte comprend en outre des combinaisons de touches spéciales qui facilitent l'édition.

Principales commandes avec EMACS

Ctrl-b
Reculer d'un caractère.
Ctrl-f
Avancer d'un courante.
Ctrl-d
Effacer le caractère sous le curseur.
Backspace
Effacer le caractère avant le curseur.
Ctrl-p
Monter d'une ligne.
Ctrl-n
Descendre d'une ligne.
Ctrl-k
Effacer la ligne courante
Ctrl-y
Restaurer la dernière ligne effacée.
Ctrl-_
Défaire ce que vous venez de faire (peut être répété).
Ctr-x Ctrl-c
Quitter emacs.
Ctrl-x Ctrl-b
Donner une liste des buffers.
Ctrl-x b
Changer le buffer courant (on peut aussi y aller à la souris si le buffer est visible).
Ctrl-g
Quand ça va mal.


Pour saugarder un fichier sous emacs, les commandes élémentaires de gestion de fichier sont :

Ctrl-x Ctrl-s
Sauver le buffer (un nom de fichier est demandé la première fois).
Ctrl-x Ctrl-w
Sauver le buffer dans un autre fichier.
Ctrl-x Ctrl-v
Lire un autre fichier dans le buffer.
Ctrl-x Ctrl-f
Lire un autre fichier dans un nouveau buffer.


Si vous vous trompez, ou voulez recommencer une commande déjà exécutée, inutile de tout retaper, vous pouvez entrer les combinaisons de touches suivantes  :

Ctrl-b
Reculer dans la ligne de commande courante.
Ctrl-f
Avancer dans la ligne de commande courante.
Ctrl-d
Effacer le caractère à droite du curseur.
Backspace
Effacer le caractère à gauche du curseur.
Tab
Complétion automatique des commandes et noms de fichiers (?).
Ctrl-p
Commande précédente dans l'historique de vos commandes.
Ctrl-n
Commande suivante dans l'historique.

 

La manipulation des expressions régulières se fait via le menu de recherche de caractères

La première partie du TP2 est à faire avant de passer à la suite.

Systèmes d'exploitation

Transparents Système d'exploitation : slideOS

Les  utilitaires utilisés (GREP et EGREP) pour manipuler des expressions régulières sont issus du monde UNIX.
Ces utilitaires permettent de rechercher dans des fichiers des lignes contenant un motif donné. Ils sont aussi disponibles dans le monde PC ou MAC.

Leur utilisation implique que l'on maîtrise les systèmes d'exploitation sur lesquels on les utilise et les expressions régulières.
 
Les outils utilisés au laboratoire sont accessibles sous Windows, sous le DOS ou via une interface Unix (commandes utilisateurs).


 

GREP et EGREP

Lire la présentation du cours faite sur le site TAL pour une présentation des expressions régulières.

Expressions régulières : aide-mémoire

OP...RATEUR    FONCTION              EXEMPLE
.               joker                80.86         suites 80186, 80a86, etc.
*              0 ou n fois             .*          n caractères
                                                     
+              1 ou n fois           -+            suite non nulle de tirets
[]             classe de caractères   [-=:]        soit -, soit =, soit :
[^]            complémentaire        [^ ]+         suite de caractères
                                                   à l'exclusion du
                                                   blanc
^              début de ligne        ^[^ ]+        suite de caractères
                                                   à l'exclusion du
                                                   blanc en début de ligne
$              fin de ligne          ^$            ligne vide
|              ou                    chapitre|sec
                                     tion
\              sens littéral d'un    \.            le point
               caractère spécial

()             groupement            19(89|90)
               d'expressions
\{n,m\}        entre n et m          \*\{4,10\}    entre 4 et 10 étoiles
               occurrences
?              zéro ou une
               occurrence

La suite du TP2 concerne GREP et EGREP.

 

Rechercher une entrée du TLFi :

 

Rechercher une entrée du XMLittré :