Partie 3

Exercices sur le "Corpus Prématurés" avec emacs

Fichier p96.tab

Pour faire rechercher une chaîne de caractère sur Emacs, il faut d'abord taper M-x occur (M=Alt) puis l'expression régulière nécessaire.
On peut voir l'expression régulière effectuée à la première ligne du résultat.

1. Rechercher les fiches contenant une interrogation

2. Rechercher les fiches correspondant au bébé 12

3. Rechercher les fiches correspondant au bébé 1

4. Rechercher les fiches pour lesquelles le score médical est de 12

5. Faire de même pour un score de 10. Pouvez-vous expliquer le résultat ?


Fichier p96.bal

1. Rechercher les fiches concernant les bébés 10 à 12

2. Rechercher les fiches concernant les bébés 10 et 12, c'est-à-dire sans 11 et 13

3. Rechercher le nombre de bébés de 23, ..., 30 semaines

4. Rechercher les fiches du jour 0 pour lesquels le bébé est né à 28 semaines

5. Rechercher les fiches des bébés nés entre 23 et 29 semaines

6. Rechercher les fiches pour lesquels le bébé à la naissance faisait au moins 1000 grammes

7. Rechercher les fiches pour lesquels le bébé à la naissance faisait moins de 1000 grammes


Extraire sur Emacs

Sur p96.tab

Vu que cette partie est assez répétitive dans les manipulations, je vais vous expliquer pas à pas comment extraire une partie spécifique d'un fichier:

1) Ctrl-x ( ==début de la macro
2) Ctrl-s == chercher une chaîne de caractère en avant (aussi commande M-x search-forward-regexp)
3) *taper les caractères désirés ou l'expression régulière*
4) Ctrl-a == se déplacer au début de la ligne
5) Ctrl-ESPACE == marque la chaîne de caractères
6) Ctrl-e == place le curseur en fin de ligne en la sélectionnant
7) M-w == définit le début de la zone
8) Ctrl-x o ==va dans la 2ème fenêtre
9) Ctrl-y == colle le résultat
10) Ctrl-x o == retourne à la 1ère fenêtre
11) Ctrl-x ) == fin de la macro, le tout est mémorisé
12 ) Ctrl-x e == répète la macro

Puis enregistrer.

Quelles fiches vont être extraites si l'on demande les fiches commençant par 13 ? Expliquer ?

On tape M-x occur, puis l'expression régulière ^13[0-9]* pour choisir toutes les fiches commençant par un 13 mais qui peuvent avoir plusieurs chiffres après. Puis on enregistre pour l'extraction.

Fichier extrait

Sur p96.bal

Extraire les fiches rédigées par les infirmières 12 et 22

Fichier extrait

Extraire les fiches concernant le bébé 10 et ne correspondant pas au jour 0

Fichier extrait



Exercices sur le "Corpus Prématurés" avec egrep

Fichier p96.tab

1. Extraire les fiches contenant une interrogation

Fichier extrait

2. Extraire les fiches correspondant au bébé 12

Fichier extrait

3. Extraire les fiches correspondant au bébé 1

Fichier extrait

4. Extraire les fiches pour lesquelles le score médical est de 12

Fichier extrait

5. Faire de même pour un score de 10.

Fichier extrait

6. Quelles sont les fiches qui vont être extraites si l'on recherche les fiches commençant par 13 ? Expliquer ?

Dans ce fichier, vu que le nombre débutant la ligne est composé du numéro du bébé+celui du jour de l'observation+l'observation dans la journée, il est probable que dans la recherche des fiches commençant par 13, il en résulte que soient extraient aussi le numéro du bébé (=1) mais aussi le jour de l'observation (=3) en plus des fiches où le numéro du bébé est 13.

7. Extraire les fiches correspondant aux bébés faisant au moins 1000 grammes.

Fichier extrait


Fichier p96.bal

1. Extraire les fiches concernant les bébés 10 à 12

Fichier extrait

2. Extraire les fiches concernant les bébés 10 et 12, c'est-à-dire sans 11 et 13

Fichier extrait

3. Trouver le nombre de bébés de 23, ..., 30 semaines

Fichier extrait

4. Extraire les fiches du jour 0 pour lesquels le bébé est né à 28 semaines

Fichier extrait

5. Extraire les fiches des bébés nés entre 23 et 29 semaines

Fichier extrait

6. Extraire les fiches pour lesquels le bébé à la naissance faisait au moins 1000 grammes

Fichier extrait

7. Extraire les fiches pour lesquels le bébé à la naissance faisait moins de 1000 grammes

Fichier extrait

8. Extraire les fiches rédigées par les infirmières 12 et 22

Fichier extrait

9. Si l'on veut extraire les fiches rédigées par les infirmières 2, 12 et 22, quel est l'inconvénient de la solution suivante : "egrep '(2|12|22)' p96.bal" ?

L'expression régulière '(2|12|12)' sélectionne également tous les chiffres commençant par 2 puisque rien n'indique que c'est le nombre fixe voulu. Pour éviter cela, il faut indiquer la fin de la suite de caractère en ajoutant [^0-9]à la fin du numéro voulu.

Fichier extrait

10. Extraire les fiches concernant le bébé 10 et ne correspondant pas au jour 0

Fichier extrait



Exercices sur le "Corpus Prématurés" (textuils niveau 0)

Corpus

1. Déterminer les différentes catégories présentes dans le corpus (leur nombre et leur fréquence)
2. Pour chaque catégorie déterminer tous les mots associés.

Nous voulons déterminer les catégories présentes dans le fichier liste-mots.txt.
Le nombre, la fréquence et les mots liés à chaque catégories sont visibles sur les images.

Il y a dans ce corpus (je ne fais ici pas de disctinction de genre et de nombre):

- 63 Noms communs
- 30 Adverbes de différents types (négation, absence...)
- 89 adjectifs
- 25 verbes (avec les participes)
- 2 conjonctions
- 2 déterminants
- 5 prépositions
- 1 pronom indéfini
- 9 pronoms réfléchis
- 5 pronoms personnels
- 4 pronoms définis



Exercices sur le "Corpus Prématurés" niveau 1)

Etape 1: un index des adjectifs

Le but est de construire un index de tous les adjectifs présents dans le corpus du fichier p96.tag

Index des adjectifs


Etape 2: filtrages

Après avoir choisis 5 adjectifs de l'index (confortable, douce, dynamique, fin, harmonieux):

1. Extraire les zones textuelles contenant les adjectifs choisis et le numéro de l'infirmière associée

Totalité des zones textuelles

Résultat confortable - Résultat douce - Résultat dynamique - Résultat fin - Résultat harmonieux

Le numéro de l'infirmière est noté dans la "colonne" 12.

D'où la fonction cut -f12 pour trouver le numéro de l'infirmière associée.

2. Extraire le premier mot des zones textuelles précédentes, les classer par infirmière, en faire le tri et les compter