TD Initiation à XML.

 

 

Aspiration du site Prématurés 96.

Lors de la séance du 9/11/2000, nous avons réalisé l’aspiration du site http://www.cavi.univ-paris3.fr/ilpga/tal/corpus/Prem/index.html à l’aide du logiciel HTTRACK (version 2.1), fait par des universitaires.

Par la suite, nous avons procédé à la normalisation du corpus à l’aide de Mkcorpus.

Le corpus.

L’objectif du site est de fournir des données pour l’analyse de la vie psychologique des bébés dont la naissance est prématurée.

Ainsi, le corpus est constitué d’une description de la vie de 13 bébés par vingt-cinq infirmières chaque jour (les jours 0, 3, 7 et 15) ; différents paramètres concernant les infirmières et les bébés sont également répertoriés.

On dispose d’une version par bébé présentée selon le plan ‘Bébé, Jour, [âge du bébé], commentaire’, ainsi que d’une version par infirmière structurée de la façon suivante : Bébé, [n° du bébé], Jour [âge du bébé], [n° du commentaire].

On peut également utiliser les deux fichiers suivants :

Enfin, des hyperliens permettent de passer d’un bébé à l’autre ou d’une infirmière à l’autre.

 

 

 

 

Examen d’occurrences en corpus (17-11-00).

Dans cette partie, à partir du document XML obtenu précédemment, nous avons examiné cinq mots appartenant à des catégories différentes (noms, verbes, adjectifs…) : contact, infirmière, douloureux, attachant, mignon, bouger.

Remarques préliminaires sur le document XML obtenu :

N.B. : 1. L'élément NomDecl qui peut apparaître comme en-tête permet de déclarer des classifications (ou taxonomie), une taxonomie pouvant renvoyer à une classification extérieure, être énumérée de façon explicite ou être récursive :

<editorialDecl><p>Tous les mots ont été minusculisés (et éventuellement réaccentués) sauf les noms propres (de médicaments). Les noms propres de médicaments en minuscules ont été capitalisés.</p>

<p>Les fautes de frappe et les soudures ont été éliminées.</p>

<p>Les traits d'union après un point ont été enlevés.</p>

</editorialDecl>.

2- L'élément NomDesc semble correspondre à une description.

 

Voici le compte-rendu de quelques résultats :

Analyse sous Cordial (fonction : Orthographe/Occurrence de mots):

Contact :

On rencontre 125 occurrences du nom commun ‘contact’ dont 21 contextes sont analysés sous Cordial. Le mot apparaît dans les structures syntaxiques ‘V + Art. + N’, ‘N + Prep + N’ ou ‘Adv + N’, onze fois dans des contextes positifs et dix fois dans des contextes positifs. Le mot apparaît toujours au singulier.

Nombre de bébés concernés : 11

Nombre d’infirmières employant ce mot : 8

Douloureux :

L’adjectif ‘douloureux’ apparaît à cinq reprises (Cordial fournit tous les contextes) dans des structures du type ‘N + Adj.’ ou bien seul, quatre fois au singulier, une fois au pluriel et quatre fois sur cinq dans des contextes négatifs.

Nombre de bébés concernés : 3

Nombre d’infirmières qui emploient le mot : 5

Bouger :

Le verbe à l’infinitif ‘bouger’ apparaît 25 fois, voici les différentes structures syntaxiques observées :

Le nombre de fois où une structure syntaxique apparaît est indiqué entre parenthèses.

 

-‘Vpers3sg + Adv’ contexte positif (7).

-‘Vpers3sg + Adv’ contexte négatif (3).

-‘Négation + Vpers3sg + GN’ contexte négatif (8).

-‘Vpers3sg + GN’ contexte positif (3).

-‘Vpers3sg + Comp Circst de manière’ contexte négatif (1).

-‘en + Participe présent’ contexte positif (1).

-‘V + Adv + Vinf’ contexte positif (1).

Nombre de bébés concernés : 12

Nombre d’infirmières qui emploient le mot : 12

On peut voir que les contextes négatifs peuvent être liés à la présence d’adverbes ou de compléments circonstanciels de manière, qui se comportent de la même façon, introduisant une information supplémentaire par rapport à l’action de ‘bouger’. Information qui peut donc être négative comme positive.

Attachant :

L’adjectif ‘attachant’ apparaît 8 fois dans le corpus. Voici les structures syntaxiques des contextes dans lesquels il apparaît :

-‘Adj’ (Tout seul) (2).

-‘Adv + Adj’ (2).

-‘N + Adv + Adj’ (2).

-‘N + Adj’ (1).

-‘Adj + GN’ (1).

Il apparaît toujours dans un contexte positif et toujours au singulier, contrairement à douloureux que l’on trouve aussi au pluriel et une fois dans un contexte positif.

Sous les autres logiciels, nous avons analysé les différents mots.

Pour le mot " contact ", nous avons observé les résultats suivants :

Le substantif " contact " apparaît 21 fois si l’on considère uniquement les zones textuelles du corpus, c’est-à-dire que l’on ne considère pas les occurrences de " contact " sous forme de balises (du type <CONTACTS-INFIRMIERE-BEBE>1).

On peut observer les séquences syntaxiques suivantes :

Le nombre de fois où une structure syntaxique apparaît est indiqué entre parenthèses.

-‘V + art + Nsing’ contexte positif (5).

-‘V + art + Nplur’ contexte négatif (1).

-‘Négation + Nsing’ contexte négatif (5).

-‘Adj + Nsing’ contexte positif (4).

-‘Nsing de Nsing’ contexte négatif (1).

-‘Nsing + Gadj (adv + adj)’ contexte positif (1), négatif (1).

On trouve un seul emploi de " contact " au pluriel et celui-ci s’oppose au singulier en marquant un contexte négatif.

Nombre de bébés concernés : 11

Nombre d’infirmières employant ce mot : 8

Chacun des deux protagonistes pouvant apparaître plusieurs fois, un trie a donc été effectué lors de la comptabilisation.

Les occurrences de " contact " sous Mkcorpus se présentent de la façon suivante :

Mot (recherché) n°Ligne # Extrait Contenu Ligne

Différences avec Emacs et Cordial dans le traitement des occurrences de " contact " :

Contextes identiques à ceux d’emacs

Les lignes sont numérotées avec Mkcorpus.

 

Examen de patrons syntaxiques en corpus (23-11-00).

Pour rechercher des patrons syntaxiques dans le corpus, nous avons réalisé l’extraction de toutes les parties textuelles brutes en supprimant les balises après normalisation (corp-Prem.txt), puis via Mkcorpus grâce à la fonction Extraction/ <SiteFileTxtbrut> (corp-Prem-2.txt).

La présentation de ces deux documents diffère sur les points suivants :

Voici un exemple de ce type de balisage :

<SITEFileTxtBrut=NUM1>

Corpus Prématurés 1996-1997

Dans tout le corpus corp-Prem-2.txt, on compte 1501 balises de ce type qui regroupent les informations textuelles de tous les fichiers (Prem-1 à Prem-6).

-Les lignes du corpus sont numérotées.

- Par la suite, nous avons soumis ces versions de corpus textuel à Cordial en produisant un état particulier (paramétrage indiqué).

Nous avons ainsi obtenu une suite de mots avec une présentation du type :

mot 1 …

mot 2…

Les fichiers (corp-Prem.cnr et corp-Prem-2.cnr) comportent plusieurs colonnes dont les champs sont les suivants :

DEBUT DE PHRASE

Mot Lemme Typegramm Syntagme position

…..

FIN DE PHRASE

Le fichier corp-Prem-2.cnr correspond au traitement du fichier corpus-Prem-2.txt qui contenait des balises numérotées, encadrant les zones textuelles.

Ces balises sont traitées par Cordial comme correspondant à des phrases composées de trois éléments :

DEBUT DE PHRASE

0 \r <

1 sitefiletxtbrut-num11 sitefiletxtbrut-num11 NCI 1-1

  1. >

FIN DE PHRASE

Le contenu de la balise est considéré comme un mot, ayant le type grammatical NCI (Nom commun invariable). Cependant on remarque qu’un caractère a été modifié au moment du passage sous Cordial.

Forme dans le fichier corpus-Prem-2.txt : sitefiletxtbrut=num11

Forme dans le fichier corp-Prem-2.cnr : sitefiletxtbrut-num11

Le caractère = a donc été remplacé par le caractère -. A part cette différence les fichiers corp-Prem.cnr et corp-Prem-2.cnr

Résultat des structures syntaxiques récurrentes dans le corpus autour de la forme ‘contact’ :

De façon générale c’est la structure syntaxique ‘V + art + N’ qui est la plus fréquente, dans cet emploi c’est la forme singulière de contact qui est la plus employée (il en est de même pour les autres structures syntaxiques dans lesquelles le mot " contact " apparaît).

 

N.B. : - Le logiciel Webxref propose un résumé des liens.

- Dans cette partie, la version étiquetée originale p96.tag a été utile.

- Une balise est repérée par <[^]*>.

 

 

Nouvelle version du corpus prématuré au format XML (dernier TD).

Dans cette partie, on utilise le fichier p96.hdr.

Dans ce fichier on peut voir plusieurs taxonomies des éléments d’information pertinents. Taxonomies qui sont sous catégorisées en catégories qui sont également sous catégorisées ( <category>, <catDesc>).

Il n’y a cependant aucune information syntaxique (balisage correspondant) concernant les items. Le choix des extraits de textes correspondant à l’état des bébés pourrait être effectué par exemple, en relation avec les recherches de patrons syntaxiques. Autour de formes pôles comme " contact " qui selon la structure syntaxique dans laquelle elle apparaît, permet de déterminer un état positif ou négatif du bébé concerné.

 

 

Filtrages élémentaires sur le site Prématuré normalisé au format XML.

- Décompte du nombre de pages.

- Décompte du nombre de liens ;

- Extraction de parties textuelles brutes.