Boîte à outils 3

Le but de cette partie est de constitué deux fichiers de patrons avec des couples NOM-ADJ(ectif) à partir des articles extraits du journal Le Monde pour chacuns des deux fichiers de sortie de Bao2.

Au fichier xml de la sortie de la Bao2 avec Treetagger est ajoutée une feuille de style adapté à l'arborescence du fichier. Le nom du fichier de la feuille de style est fs_sortie_textbrut_treetagger_nom_adj.xsl. Elle sert à extraire les couples NOM-ADJ du fichier Sortie_Bao2_Treetagger2XML.xml et les sauvegarder dans un fichier texte Sortie_Bao3_Treetagger_nom_adj.txt. Ce dernier sera utiliser dans la Bao4 pour dessiner un graphe avec patron2graphe.exe. Ainsi, la première partie de Bao3 est réalisée.

Pour la partie de Bao3 avec Cordial, on utilise le texte extrait, étiqueté avec Cordial et un script Perl pour créer le fichier avec des couples NOM-ADJ. Tous les termes des catégories du mot qui sont présents dans Cordial, sont enregistrés dans le fichier  cordial__termes.txt. Toutes les combinaisons de couple NOM-ADJ qui sont analysées avec Cordial, sont placées dans cordial__patrons.txt.

Analyse des résultats:

L'abréviation « adjfs » désigne les adjectifs provenant de nom, mais aussi les noms de famille.

Entre les deux fichiers de sortie de cette étape, celui avec Treetagger et celui avec Cordial, il y a une différence de 5173 lignes en tout. Cela vient du fait qu'il existe de faux couples NOM-ADJ dans la sortie de Bao3 avec le Treetagger. Ce sont par exemple des couples dont un élément est un nom propre et l'autre un article défini (l', la, le, les), un titre (M., Mme, Melle) ou un autre nom propre. Certain noms propres sont aussi présents dans la sortie Bao3 de Cordial comme « Vladimir Poutine » ou « Qeen Mary II », qui ne sont pas du tout des couples NOM-ADJ.

L'explication des erreurs produites de Treetagger est la suivante:

  • « Le » est reconnu tantôt comme un adjectif tantôt comme un article définit (alors il y a des cas où il est précédé d'un nom, alors le couple NOM-ADJ est reconnu)

  • Même jeu pour les pronoms personnels (par exemple « il » est reconnu aussi comme un adjectif)

  • Dans l'expression « mères porteuses », comme nom est marqué « porteuses » et comme adjectif « mères », donc inversion des catégories de mot.

  • Parfois des noms propres rares sont aussi reconnus comme des adjectifs (exemple: Kaka de Moussa Kaka ou Blu-ray)

  • Des verbes sont parfois marqués comme des noms (exemple: « relève »)

Les erreurs de reconnaissance dans la sortie de Cordiale sont liées à:

  • La ponctuation n'est pas prise en compte et parfois le nom de la phrase précédente et l'adjectif ou l'abréviation de celle qui suit, sont mis en couple NOM-ADJ. (exemple Mohamed Trois) Dans la sortie de Cordial de Bao2, la ponctuation est toujours présente. L'erreur vient plutôt lors de l 'extraction des patrons.

  • Dans Qeen Mary II, le nombre romain est catégorisé comme adjectif. De même, certains noms propres sont reconnus comme des adjectifs (exemple Poutine de Vladimir Poutine, Mme Royal, Jean-Marie Le Pen)

  • Des constructions comme « mot-de-mot » sont aussi reconnues comme des couples NOM-ADJ. (exemple Gomez de retour)

En conclusion: Il existe le problème de reconnaissance des noms propres rares avec les deux méthodes de traitement. Les résultats obtenus avec Cordial contiennent moins de faux couples NOM-ADJ, tandis qu'avec le Treetagger il y a en plus des erreurs avec les articles définis et des pronoms personnels.


Résultats de Bao3 :

Manipulations avec Cooktop : fig1, fig2 et fig3

Feuille de style de Bao2 avec Treetagger : fs_Sortie_Bao3_Treetagger_affichage.xsl

Sortie Bao2 de Treetagger sans feuille de style : Sortie_Bao2_Treetagger2XML.xml

Sortie Bao2 de Treetagger avec la feuille de style : Sortie_Bao2_Treetagger2XML_style.xml

Feuille de style de Bao3 avec Treetagger : fs_sortie_textbrut_treetagger_nom_adj.xsl

Sortie de Bao3 de Treetagger : Sortie_Bao3_Treetagger_nom_adj.txt

Script d'extractions des patrons avec Cordial : bao3_extraire_patron_cordial.pl

Termes dans Cordialcordial__termes.txt

Choix de patron NOM-ADJ : cordial__patrons.txt

Sortie de Bao3 avec Cordial : Sortie_Bao3_Cordial_nom_adj.txt

©  Ginka Yankova 2009