Secteur TAL Informatique

ILPGA Université Paris 3

Parcours TAL : step 2

Ce TP est organisé en deux parties. la première est consacrée aux expressions régulières sous WORD ou EMACS, la seconde aux systèmes d'exploitation.

TP2 : Expressions régulières


Les réponses aux questions du TP doivent être enregistrées dans un fichier au format WORD..
Ce dernier doit contenir les motifs de recherche réalisés et les résultats produits.
Les résultats produits par un recherche simple seront insérés par copier/coller.
Les fichiers produits par les macros seront insérés dans de document.
L'intégralité du fichier sera imprimé ou mis sur disquette.

Les réponses fournies devront être commentées.

Textes de travail : Récupération des versions textuelles

Plusieurs versions sont utilisables  :

La première version (p96.tab) est disponible (au format HTML) : visualisation p96tab.htm.
La seconde version (p96.bal) est disponible (au format HTML) : visualisation p96bal.htm.

La première version (p96.tab) est disponible (au format TXT) : visualisation p96.tab.
La seconde version (p96.bal) est disponible (au format TXT) : visualisation p96.bal.
La version (p96.fic) est disponible (au format TXT) : visualisation p96.fic.
La version (p96.tag) est disponible (au format TXT) : visualisation p96.tag.

Pour la visualisation des versions textuelles brutes, une étape de téléchargement est parfois nécessaire. Si tel est le cas placer le fichier cherché dans votre environnement de travail avant de le manipuler.

WORD, EMACS et les expressions régulières : module de recherche

Fichier de travail p96.tab.

Dans ce fichier, le nombre débutant la ligne concatène le numéro de bébé, celui du jour de l'observation et celui de l'observation dans la journée.

Dans cette partie, on utilise le menu de recherche de chaînes de caractères.

Fichier de travail p96.bal.

WORD, EMACS et les expressions régulières : construction de macros

Fichier de travail p96.tab.

Dans cette partie, construire des macros sous WORD ou EMACS pour réaliser les extractions d'informations demandées. On doit obtenir en sortie un fichier pour chaque requête demandée.

Fichier de travail p96.bal.

Macros Word et Expressions régulières : Filtrage et Extraction d’information

Pour commencer, récupérer les macros word pour faire des extractions d'occurrences exprimées sous la forme d'expressions régulières : macroRegExp.zip contient le modèle occur.dot pour traiter les expressions régulières. On trouvera aussi dans cette archive une version complète du Père Duchesne pour Word 97. Le travail ci-dessous sera fait sur cette version du texte.

Outils manipulés : Word, outils Macro

Objectif : initiation aux expressions régulières, utilisation et écriture de macros sous Word

Texte de travail : Le père Duchesne

Sous Word les macros permettent de mettre en œuvre des enchaînements mémorisés d’opérations.

Dans cette série d’exercices on utilise des macros qui permettent de rechercher un motif quelconque dans le fichier courant. Ces macros produisent en sortie un fichier contenant les résultats de la recherche, ce fichier est ouvert ensuite pour une lecture des résultats.

Pour utiliser les macros prédéfinis, procéder ainsi :

Pour commencer on utilise la macro appelée " regexp ". Cette macro permet d’extraire des motifs écrits sous la forme d’expressions régulières (dans le contexte défini par Word).

Utiliser la macro " regexp " pour extraire les motifs suivants :

La seconde macro à utiliser est celle nommée " segment ". Cette macro permet d’extraire des segments de trois mots consécutifs contenant un mot donné. Appliquer cette macro aux recherches suivantes :

A partir de la macro " segment ", construire une macro " concordance " capable de rechercher une concordance (2 mots avant, 2 mots après) d’un mot donné. Appliquer cette macro sur les questions précédentes.

Construire une macro qui prend en entrée un mot donné et un nombre x définissant la longueur d’une séquence de mots consécutifs à chercher. Cette macro devra produire en sortie toutes les séquences contenant le mot visé et de longueur x. Trier le fichier résultat pour repérer les segments répétés.

Les macros modifiées sont disponibles dans l'archive suivante : macroRegExp2.zip (disponible rapidement...)

Macros Emacs et Expressions régulières : Filtrage et Extraction d’information

Outils manipulés : Emacs, Macro

Objectif : initiation aux expressions régulières, utilisation et écriture de macros sous Emacs

Texte de travail : Le père Duchesne

Sous Emacs les macros permettent de mettre en œuvre des enchaînements mémorisés d’opérations.

Dans cette série d’exercices on utilise des macros qui permettent de rechercher un motif quelconque dans le fichier courant. Ces macros produisent en sortie un fichier contenant les résultats de la recherche, ce fichier est ouvert ensuite pour une lecture des résultats.

Pour commencer on utilise la fonction occur. Cette fonction permet d’extraire des motifs écrits sous la forme d’expressions régulières.

Appliquer occur sur le texte pour extraire les motifs suivants :

Construire une macro " concordance " capable de rechercher une concordance (2 mots avant, 2 mots après) d’un mot donné. Appliquer cette macro sur les questions suivantes :<

Construire une macro permettant d’extraire des segments de trois mots consécutifs contenant un mot donné. Appliquer cette macro aux recherches précédentes.

Travail avec GREP et EGREP

Fichier p96.tab.

Dans cette partie, on utilisera GREP ou EGREP sous DOS ou sous l'interface UNIX.. On doit obtenir en sortie un fichier pour chaque requête demandée.

Fichier p96.bal.

Dans cette partie, on utilisera GREP ou EGREP sous DOS ou sous l'interface UNIX.. On doit obtenir en sortie un fichier pour chaque requête demandée.

Fichiers d'entraînement

Les numéros suivis d'un espace en début de ligne ont pour seule fonction de permettre une référence précise. Les filtres à écrire devront ne pas en tenir compte.

 1                 La mort des amants
 2
 3 Nous aurons des lits pleins d'odeurs légères,
 4 Des divans profonds comme des tombeaux,
 5 Et d'étranges fleurs sur des étagères,
 6 Ecloses pour nous sous des cieux plus beaux.
 7
 8 Usant à l'envi leurs chaleurs dernières,
 9 Nos deux coeurs seront deux vastes flambeaux,
10 Qui réfléchiront leurs doubles lumières
11 Dans nos deux esprits, ces miroirs jumeaux.
12
13 Un soir fait de rose et de bleu mystique,
14 Nous échangerons un éclair unique,
15 Comme un long sanglot, tout chargé d'adieux;
16
17 Et plus tard un Ange, entr'ouvrant les portes,
18 Viendra ranimer, fidèle et joyeux,
19 Les miroirs ternis et les flammes mortes.
20
21
22                    Charles Baudelaire
 1                Le dormeur du val
 2
 3 C'est un trou de verdure où chante une rivière
 4 Accrochant follement aux herbes des haillons
 5 D'argent ; où le soleil, de la montagne fière,
 6 Luit : c'est un petit val qui mousse de rayons.
 7
 8 Un soldat jeune, bouche ouverte, tête nue,
 9 Et la nuque baignant dans le frais cresson bleu,
10 Dort ; il est étendu dans l'herbe, sous la nue,
11 Pâle dans son lit vert où la lumière pleut.
12
13 Les pieds dans les glaïeuls, il dort. Souriant comme
14 Sourirait un enfant malade, il fait un somme :
15 Nature, berce-le chaudement : il a froid.
16
17 Les parfums ne font pas frissonner sa narine ;
18 Il dort dans le soleil, la main sur sa poitrine
19 Tranquille. Il a deux trous rouges au côté droit.
20
21                Arthur Rimbaud

Sauvegardez le premier poème dans un fichier amants.txt, et le deuxième dans un fichier dormeur.txt.

Exercices (sur amants.txt et dormeur.txt)

1 Extraire les lignes contenant Nous capitalisé (commençant par une majuscule)
2 Extraire toutes les lignes contenant nous
3 Extraire les vers seuls
4 Extraire les non vers seuls (2 solutions. Pourquoi sont-elles différents ?)
5 Vers qui contiennent un futur
6 Vers qui contiennent un point de fin de ligne
7 Lignes qui se terminent par une rime féminine (en e)
8 Eliminer le nom de l'auteur du résultat précédent
9 Vers qui se terminent par une riche féminine (en e) sans avoir à éliminer le nom de l'auteur
10 Vers qui comprennent une majuscule ailleurs qu'en première position
11 Vers qui contiennent une voyelle nasale
12 Vers qui contiennent deux voyelles nasales
13 Vers qui contiennent trois voyelles nasales
14 Compter les lignes vides
15 Compter les lignes non vides (2 solutions)
16 Donner les lignes où apparaît nous (en majuscules et en minuscules) et leurs numéros
17 Donner les lignes où apparaît nous (en majuscules et en minuscules) sans utiliser une classe de caractères (2 solutions)
18 Donner les lignes où apparaît nous ou nos (en majuscules et en minuscules) sans utiliser une classe de caractères (3 solutions)
19 Donner les lignes où n'apparaît pas de pluriel
20 Donner les vers où n'apparaît pas de pluriel
21 Expliquer le résultat suivant :
 egrep '(....).*\1' LeDormeurDuVal.txt
               Le dormeur du val
Sourirait un enfant malade, il fait un somme :
22 Que fait :
 egrep ',.' amants.txt
23 Quelle différence avec :
 egrep ',' amants.txt
24 Que fait :
 egrep 'e [aeiou]' amants.txt
25 Que fait :
 egrep 'e [^aeiou]' amants.txt
26 Que fait :
 egrep '[^aeiou] [aeiou]' amants.txt
27 Sur dormeur.txt, énoncez 5 requêtes et fournissez à part les 5 motifs et les réponses (en nombre de lignes) correspondants. Fournissez par ailleurs 5 motifs (et leurs réponses) et à part l'énoncé correspondant. Les motifs doivent recourir aux différents opérateurs de grep et aux options possibles.

TP2 : Systèmes d'exploitation

Exercice 1 :

Exercice 2 : Exercice 3 : Exercice 4 : Exercices UNIX

Exercice 1 :

Exercice 2 : Exercice 3 : Exercice 4 : Exercice 5 : Exercice 6 : Exercices WINDOWS

Exercice 1 :

Exercice 2 : Exercice 3 :

Rechercher une entrée du TLFi :

 

Rechercher une entrée du XMLittré :