MKCORPUS PROJECT MKCORPUS PROJECT MKCORPUS PROJECT
MKC Home
 

 

MkCorpus/CorpusPlusBuilder...

Module : CORDIAL 2 XML

S. Fleury //2002

 

Exemple de sortie :

Traitement sur un fichier XML (le corpus prématurés) et un fichier texte brut.

A1. Dans le répertoire Corpus/Prem de MKCORPUS, vous trouverez :

1. le corpus Prématurés initial : p96-2001-precordial.xml (suppression des indications XML de traitements faite)

2. le même fichier issu de Cordial : version non corrigée p96-2001-precordial.cnr-avantcorrection (il manque un chevron ligne 15978) et version corrigée p96-2001-precordial.cnr-corrige

3. le fichier issu du module Cordial2xml de MKCORPUS et produit à partir du fichier p96-2001-precordial.cnr-corrige : p96-2001-precordial2xml.xml

A2. Dans le répertoire Corpus de MKCORPUS, vous trouverez :

1. Le texte "Dormi Pleuré" de Raymand Queneau : DormiPleure.txt

2. La version étiquetée par Cordial : DormiPleure.cnr

3. La version issue du module Cordial2xml : DormiPleure.xml

 

Format d'entrée :

Charger un fichier issu de Cordial (fichier XML ou non soumis à Cordial avec pour extension .cnr)

Respecter les préférences d'étiquetage fournies dans la documentation MKCORPUS.

IMPORTANT : Si le fichier à traiter par Cordial est un fichier XML,

supprimer au préalable tous les éléments XML du type commentaire ou instruction de traitement

 

Format de sortie :

Un fichier XML recomposé avec indication de forme, lemme et catégorie

Le fichier XML construit est parsé via un parseur XML en fin de traitement, si la conformité XML n'est pas respectée, il faudra, pour le moment, corriger le fichier à la main

 

A faire :

beaucoup...

 

 

 

Bugs et problèmes :

Le fichier issu de Cordial peut avoir subi par des "pertes" cf Exemple de sortie supra : pb de suppression "sauvage" de caractère par Cordial