P96 Etats
P96 Bébés
P96 Infirmières
P96-Cat-1
P96-Cat-2
 
Thème 1
Thème 2
Thème 3
Thème 4
Thème 5
Sommaire
Séance 6
Thème 7
Thème 8
Thème 9
Thème 10
 



 
 

Segmentation, étiquetage et analyse syntaxique

Phase 1 : segmentation

1. Allons aux champs

A partir des versions électroniques  (issues de tableur p96tab.htm et balisé p96.bal) et de la page P96Etats, écrivez les expressions régulières correspondant aux différents champs des deux versions du corpus. Les expressions régulières doivent être le plus restrictives possible, c'est-à-dire reconnaître le champ en question et rien d'autre.

Sous un éditeur, créez un fichier champs-p96.exp dans lequel vous recopierez les champs (par couper/coller) et vous écrirez vos réponses.
 
 

n° fiche
texte
n° fiche
complément
texte
n° fiche
age en h
age en j
terme en sem
mode accoucht
lieu
heure
saisie
code inf
poids (g)
sédation
freq visit parents
relat inf/par
relat mère/bb
occup bb
Pntic
moral
score med 
<FICHE>
<TXT>
<BEBE>
<JOURS>
<INFIRMIERE>
<HEURES>
<OBSERVATION>
<TERME>
<ACCOUCHEMENT>
<LIEU>
<HEURE_SAISIE>
<POIDS>
<SEDATION>
<VISITES_PARENTS>
<INFIRMIERE-PARENTS>
<MERE-BEBE>
<CONTACTS-INFIRMIERE-BEBE>
<PRONOSTIC>
<MORAL>
<SCORE> 

2. Occurrences dans Prématurés96

Dans un fichier p96.seg, on notera sous forme d'expressions régulières les différents types de "segments" rencontrés dans p96.bal. On donnera à chaque type un nom.  On s'attachera aux points suivants : On notera à chaque fois des contextes effectifs qui appuieront les descriptions proposées.
 
 

3. Segmenteur(s)

On présente ci-dessous plusieurs segmentations. Chaque présentation d'un segmenteur comprend les rubriques suivantes, éventuellement assorties de commentaires.

3.1. Segmenteur 1

Spécification

     Tout caractère a un statut et un seul (séparateur / non séparateur)

Définitions
NumeroFiche       ([0-9]{3,5})
Mot               ([A-Za-zéèêëâàîïùûûôç]+)
Ponctuation       ([?,.:!'()+=%-])
Espace            ([ \t\n])

Réécritures
NumeroFiche  Imprimer segment + \t + NUM
Mot  Imprimer segment + \t + MOT
Ponctuation  Imprimer segment + \t + PON
Espace Ne pas imprimer segment

Commentaires
Deux traitements seulement : soit le segment est imprimé, suivi de son type, soit il disparaît (il n'est pas imprimé).
C'est le cas ici des différents caractères figurant une espace : "blanc", tabulation ou passage à la ligne.

Exemple
Soit la fiche

872  aujourd'hui, bébé peu réactif, très endormi. entrouvre péniblement les yeux une seule fois depuis que je m'occupe d'elle. a légèrement mobilisé ses jambes. pratiquement pas de réaction au dextro, à la lumière.

Elle devient

872     NUM
aujourd MOT
'       PON
hui     MOT
,       PON
bébé    MOT
peu     MOT
réactif MOT
,       PON
très    MOT
endormi MOT
.       PON
entrouvre       MOT
péniblement     MOT
les     MOT
yeux    MOT
une     MOT
seule   MOT
fois    MOT
depuis  MOT
que     MOT
je      MOT
m       MOT
'       PON
occupe  MOT
d       MOT
'       PON
elle    MOT
.       PON
a       MOT
légèrement      MOT
mobilisé        MOT
ses     MOT
jambes  MOT
.       PON
pratiquement    MOT
pas     MOT
de      MOT
réaction        MOT
au      MOT
dextro  MOT
,       PON
à       MOT
la      MOT
lumière MOT
.       PON

Extraits de l'index
      15 +       PON
      78 '       PON
      2 Fentanyl        MOT
      4 Hypnovel        MOT
      1 `calme  MOT
      3 aujourd MOT
      4 c       MOT
      3 hui     MOT
      2 hors    MOT
     1 jusqu   MOT
     17 lors    MOT

Commentaires

Résultats de la segmentation

La segmentation produit les résultats suivants : segmentation 1.

3.2. Segmenteur2

Spécification

     Les noms de médicaments sont distingués
     Les deux fonctionnements de l'apostrophe sont distingués
     Soudure d'éléments non libres : lors, jusqu'

Définitions
NumeroFiche       ([0-9]{3,5})
Mot               ([a-zéèêëâàîïùûûôç]+[']?)
Medicament        ([A-Z][a-zéèêëâàîïùûûôç]+)
Ponctuation       ([\?,.:!'()+=%-])
Espace            ([ \t\n])
Plus              (\+([ ]?\+)*)
LorsDe            (lors" "(des?|du|d\'))
JusqueA           (jusqu\'à)

Réécritures
aujourd\'hui   Imprimer segment + \t + MOT
LorsDe  Imprimer segment + \t + MOT
JusqueA  Imprimer segment + \t + MOT
NumeroFiche  Imprimer segment + \t + NUM
Plus  Imprimer segment + \t + MOT
Mot  Imprimer segment + \t + MOT
Medicament  Imprimer segment + \t + MED
Ponctuation  Imprimer segment + \t + PON
Espace Ne pas imprimer segment

Exemple
Trois changements dans l'exemple de la fiche 872
aujourd'hui     MOT
m'      MOT
d'      MOT

Extraits de l'index
      2 -       PON
     1 +       MOT
      2 + +     MOT
      2 + + +   MOT
      2 ++      MOT
      1 jusqu'à MOT
      1 juste   MOT
      2 lors de MOT
     15 lors des        MOT
      6 lorsqu' MOT
      7 lorsque MOT
      2 Fentanyl        MED
      4 Hypnovel        MED

Résultats de la segmentation

La segmentation produit les résultats suivants : segmentation 2.
 

3.3. Segmenteur3

Spécification

     Les noms de médicaments sont distingués
     Les deux fonctionnements de l'apostrophe sont distingués
     Soudure d'éléments non libres : lors, jusqu'
     Distinction de plusieurs types de ponctuation : forte (PFO), faible (PFB), de proposition (PPR)
     Soudure d'adverbiaux (prépositions et subordonnants), de déterminants et du présentatif c'est

Définitions
NumeroFiche       ([0-9]{3,5})
Mot               ([a-zéèêëâàîïùûûôç]+[']?)
Medicament        ([A-Z][a-zéèêëâàîïùûûôç]+)
PonctForte        ([.])
PonctFaible       ([,-])
PonctProp         ([\?:!()])
Espace            ([ \t\n])
Plus              (\+([ ]?\+)*)
LorsDe            (lors" "(des?|du|d\'))
JusqueA           (jusqu\'à)
Presentatif       (c\'est)
PrepComplexe      (de" "par|((en" "dehors|au" "niveau|autour|au" "moment)" "(d(e|\')|des)))
DetComplexe       ((pas|beaucoup|peu)" "de)
SubComplexe       ((bien|dès|depuis)" "qu(e|\'))
AdvComplexe       (pour" "le" "moment|par" "moments|à" "peine|plus" "ou" "moins|un" "peu)

Réécritures
Presentatif  Imprimer segment + \t + MCO
PrepComplexe|DetComplexe|SubComplexe|AdvComplexe  Imprimer segment + \t + MCO
aujourd\'hui   Imprimer segment + \t + MOT
LorsDe  Imprimer segment + \t + MOT
JusqueA  Imprimer segment + \t + MOT
NumeroFiche  Imprimer segment + \t + NUM
Plus  Imprimer segment + \t + MOT
Mot  Imprimer segment + \t + MOT
Medicament  Imprimer segment + \t + MED
PonctForte  Imprimer segment + \t + PFO
PonctFaible  Imprimer segment + \t + PFB
PonctProp  Imprimer segment + \t + PPR
Espace Ne pas imprimer segment

Extraits de l'index
      1 !       PPR
     13 (       PPR
     13 )       PPR
    179 ,       PFB
      2 -       PFB
    484 .       PFO
      2 :       PPR
      4 ?       PPR
      1 au moment de    MCO
     11 au moment des   MCO
      1 au niveau des   MCO
      1 autour d'       MCO
      5 autour de       MCO
      2 beaucoup de     MCO
      1 bien que        MCO
      4 c'est   MCO
      1 de par  MCO
      1 depuis qu'      MCO
      1 depuis que      MCO
      2 dès qu' MCO
     10 en dehors des   MCO
      1 par moments     MCO
      4 pas de  MCO
      2 peu de  MCO
      2 plus ou moins   MCO
      1 pour le moment  MCO
     10 un peu  MCO
      1 à peine MCO

Résultats de la segmentation

La segmentation produit les résultats suivants : segmentation 3.
 

3.4. Bilan