Exercices 19.17 à 19.19 :

Lien vers le fichier de travail p96.tab
Lien vers le fichier de travail p96.bal


Exercice 19.17 : Exercices sur le "Corpus Prématurés" avec emacs :

Réaliser les opérations suivantes à l'aide du menu de recherche de chaînes de caractères :

  Construire des macros sous EMACS pour réaliser les extractions d'informations demandées :

Exercice 19.18 : Exercices sur le "Corpus Prématurés" avec egrep :

1) Extraire les fiches contenant une interrogation :

ligne de commande : egrep "\?" p96.tab




2) Extraire les fiches correspondant au bébé 12 :

ligne de commande : egrep -n "^12[0-9][0-9]" p96.tab




3) Extraire les fiches correspondant au bébé 1 :

ligne de commande : egrep -n "^1[0-9]{2}[^0-9]




4) Extraire les fiches pour lesquelles le score médical est de 12 :

ligne de commande : egrep -n "12[^0-9]+$" p96.tab




5) Faire de même pour un score de 10 :

ligne de commande : egrep -n "10[^0-9]+$" p96.tab




6) Quelles sont les fiches qui vont être extraites si l'on recherche les fiches commençant par 13 ? Expliquer ?

ligne de commande : egrep -n "^13" p96.tab

Explication :
Si on recherche les fiches commençant par 13 on aura à la fois les fiches du 1er bébé au 3eme jour (ainsi que les moments de l’observation) et celles du 13ème bébé (avec les observations faites sur lui)





7) Extraire les fiches correspondant aux bébés faisant au moins 1000 grammes :

ligne de commande : egrep "[1-9][0-9][0-9][0-9]([^0-9a-z][0-9]+)([^0-9a-z][0-9]+)([^0-9a-z][0-9]+)([^0-9a-z][0-9]+)([^0-9a-z][0-9]+)([^0-9a-z][0-9]+)([^0-9a-z][0-9]+)([^0-9a-z][0-9]+)[^0-9]*" p96.tab




1 ) Extraire les fiches concernant les bébés 10 à 12 : Résultat

ligne de commande : egrep "<FICHE>1[0-2][0-9][0-9]" p96.bal > 19.18.bal001.txt

2) Extraire les fiches concernant les bébés 10 et 12, c'est-à-dire sans 11 et 13 : Résultat

ligne de commande : egrep "<FICHE>1[02][0-9][0-9]" p96.bal > 19.18.bal002.txt


3) Trouver le nombre de bébés de 23, ..., 30 semaines : Résultat

ligne de commande : egrep -c "<TERME>2[3-9]\|30" p96.bal > 19.18.bal003.txt


4) Extraire les fiches du jour 0 pour lesquels le bébé est né à 28 semaines : Résultat

ligne de commande : egrep "<JOURS>0.*<TERME>28" p96.bal > 19.18.bal004.txt


5) Extraire les fiches des bébés nés entre 23 et 29 semaines : Résultat

ligne de commande : egrep "<TERME>2[3-9] " p96.bal > 19.18.bal005.txt


6) Extraire les fiches pour lesquels le bébé à la naissance faisait au moins 1000 grammes : Résultat

ligne de commande : egrep "<POIDS>1[0-9][0-9][0-9]" p96.bal > 19.18.bal006.txt


7) Extraire les fiches pour lesquels le bébé à la naissance faisait moins de 1000 grammes : Résultat

ligne de commande : egrep "<POIDS>[0-9][0-9][0-9][^0-9]+" p96.bal > 19.18.bal007.txt


8) Extraire les fiches rédigées par les infirmières 12 et 22 :
Résultat

ligne de commande : egrep "<INFIRMIERE>[12]2 " p96.bal >  19.18.bal008.txt


9) Si l'on veut extraire les fiches rédigées par les infirmières 2, 12 et 22, quel est l'inconvénient de la solution suivante ?
egrep '<INFIRMIERE>(2|12|22)' p96.bal

Problème avec la ligne de commande : egrep "<INFIRMIERE>(2|12|22)" p96.bal > 19.18.bal009.txt
L'inconvénient est que l'on n'obtient pas de résultat, car egrep ne traite pas le |.


Exercice 19.19 : Exercices sur le "Corpus Prématurés" (textulis niveau 0) :

On trouvera dans l'archive suivante un fichier regroupant l'ensemble des mots du corpus (un par ligne).

Chaque ligne est construite de la manière suivante :
bébé_NMS
un mot est suivi de sa catégorie : la forme bébé Nom Masculin Singulier


Déterminer les différentes catégories présentes dans le corpus (leur nombre et leur fréquence)
Pour chaque catégorie déterminer tous les mots associés.

Liste de mots (de base)

Gardons uniquement les catégories : catégories,  classons - les en ne retenant qu'une occurence par catégorie : catégories2 .
On fait cela grâce à une macro, sous emacs, qu'on a noté :  macro .


Sous cygwin, on peut également trier la liste des catégories que nous avons :




Puis les compter, avec egrep -c, et on en trouve 25 .

Il y a donc 25 catégories .

Pour les adverbes, on les compte, et ne gardons qu'une seule occurence, sous cygwin
"image cygwin"
on trouve le résultat adverbes.txt
on en compte 7 différents (donc 2 advne et 1 advpas).

On fait de même pour les autres
"image cygwin"

On trouve les résultats :  adjectifs feminins (sing et pluriel), adj.masculins (sing et plur), coco, cosub, determinant ms, noms fs, noms mp, noms ms,
pdemms, pindms, pron.pers1s, pron.pers3fs, pron.pers 3ms, prefmp, prefms, prep(dont prepdes), v3s, ve3s, vppfs .