Haiyan_QIU_Jinyuan

A partir des fichiers étiquetés que l’on a obtenu dans la Boîte à outils 3, la Boîte à outils 4 a deux tâches principales et une tâche optionnelle à traiter. Pour les tâches principales : on établira d’abord une méthode nous permettant d'extraire des patrons syntaxiques, par exemple : Nom + Adjectif, ensuite une autre méthode pour extraire des relations de dépendance. Pour la tâche optionnelle, on établit une représentation graphique des listes produites dans les 2 tâches précédentes

Objectifs :

1. Extraction de patrons (avec Perl, XSLT et XQuery)
2. Extraction de relations de dépendance (avec XSLT et XQuery)
3. (optionnel) représentation graphique des listes produites dans les 2 tâches précédentes

1. Extraction de patrons

Pour cette première tâche, nous présentons ici plusieurs méthodes pour procéder avec différents formats de textes. La première utilisera le langage Perl sur les fichiers UDpipe, la seconde utilisera le langage XSLT sur les fichiers XML, la troisième utilisera le langage Xquery sur les fichiers XML. Les résultas sous forme de liste sont tels que ci-dessous :

1.1 Pure Perl pour l’étiquetage UDpipe
1.2 Feuille de style XSLT pour l’étiquetage TreeTagger et UDpipe
1.3 XQuery pour l’étiquetage TreeTagger et UDpipe

Les patrons à extraire sont:

NOM ADP NOM ADP
VERB DET NOM
ADP ADV ADP
ADP DET NOM
NOM ADJ
ADJ NOM

N.B.: les jeux d'étiquettes changent selon l'étiqueteur, par exemple, ADP se dit aussi PRP ou PREP

1.1 Pure Perl

En prenant en entrée des fichiers étiquetés par UDpipe, nous pouvons appliquer la méthode de pure perl pour extraire les patrons morphosyntaxiques grâce à un script perl. Ce script nécessite aussi un fichier de patrons : patrons.txt $. Dans lequel on peut mettre soit un patron, soit tous les patrons qui nous intéressent.

Le script d'extraction de patrons est disponible ci-dessous:

Le programme se lance comme suit :

perl bao3.pl sortie*.txt patrons.txt > resultat.txt

Si on veut trier les résultats, on peut ajouter quelques commandes comme ci-dessous :

perl bao3.pl sortie*.txt patrons.txt | sort | uniq -c | sort -gr > resultat.txt

Comme il y a beaucoup de patrons, nous n'allons montrer que les aperçus des résultats obtenus de deux patrons : NOM-ADJ et NOM-PREP-NOM-PREP. Tous les autres sont disponibles à télécharger en cliquant sur les boutons qui se trouvent après les aperçus.

NOM-ADJ : 3208-À la Une, 3210-Internationale, 3246-Culture

NOM-PREP-NOM-PREP : 3208-À la Une, 3210-Internationale, 3246-Culture

Les fichiers de patron et les résultats pour chaque rubrique sont disponibles ci-dessous.

1.2 Feuille de style XSLT (Treetagger et UDpipe)

Treetagger

Pour extraire des patrons des résultats XML, on peut utiliser des feuilles de styles XSLT. Il y a une feuille de style par patron. En choisissant la méthode de sortie texte et en utilisant la commande 'xsltproc' sur Terminal, on obtient des fichiers de résultats similaires à ceux vus précédemment (on a aussi enchaîné le lancement avec les commandes Bash pour trier et compter les résultats). La transformation xsl se lance donc comme suit :

xsltproc ADJ_NOM.xsl XML-RSS_sortiexmlTT_3208.xml | sort | uniq -c | sort -gr > ADJ_NOM_3208.html

Un exemple pour montrer à quoi ressemble les résultats :

Les autres résultats sont disponibles à télécharger ci-dessous :

Les étiquettes utilisées ici sont un peu différentes que celles dans les patrons

UDpipe

Les résultats d'UDpipe sont disponibles à télécharger ci-dessous :

Ne pas oublier de convertir le fichier txt en xml avec le script udpipe2xml-version-sans-titrevsdescription-v2.pl

1.3 Requêtes XQuery

Une autre façon de fouiller les données des fichiers XML est de faire des requêtes XQuery, en passant par le logiciel BaseX. Pour l’extraction, on peut écrire une requête par un patron, mais on peut aussi combiner les différents patrons en utilisant 'or' qui permet de rendre compte de l'alternative dans le filtrage des résultats à renvoyer. L’avantage de Xquery est que l’on n’a pas besoin de changer à chaque fois la requête, on change juste le nom de fichier une fois que la requête est bonne, pour pouvoir traiter les autres fichiers. En plus, j’ai changé le nom des fichiers xml en pure chiffre (par exemple : XML-RSS_sortiexmlTT_3246 devient 3246) pour faciliter la modification.

Treetagger

Requête pour extraire le patron NOM ADJ / ADJ NOM :
for $titre in doc("3208")//titre for $element in $titre/element let $nextElement := $element/following-sibling::element[1] where ($element/data[1] = "NOM" and $nextElement/data[1] = "ADJ") or ($element/data[1] = "ADJ" and $nextElement/data[1] = "NOM") return (concat($element/data[3]/text()," ",$nextElement/data[3]/text()))