Boîte à Outils 3
Analyse morpho-syntaxique et en dépendance
Objectif : recherche et extraction de termes sur les données étiquetées (selon différents patrons proposés), de relations de dépendances. |
Nos données ont été extraites et enrichies, on peut maintenant procéder à une analyse linguistique des termes par extraction de plusieurs patrons syntaxiques (séquences de POS). On observera également les relations de dépendances qui peuvent lier ces termes entre eux.
Dans un premier temps, nous nous intéressons aux patrons syntaxiques. Les patrons syntaxiques, étudiés dans les 5 rubriques dont les données ont été préparées en BAO1 et BAO2, sont les suivants:
Il est intéressant ici de varier les combinaisons de POS mais aussi la longueur des séquences de POS, pour voir ce qui caractérise plus ou moins bien une rubrique par rapport à une autre.
Pour la méthode XSLT, vous trouverez ci-dessous toutes les feuilles de style nécessaires à l’extraction, et pour la méthode XQUERY, un fichier au format txt regroupant toutes les requêtes à effectuer sur les différentes rubriques pour extraire les patrons choisis. Enfin, nous appliquons également à la sortie UDPipe au format txt une solution en perl proposée et commentée en cours BAO3_extraction_patrons.pl. Évidemment, on peut ensuite adapter ce travail pour rechercher autant de patrons différents, et pertinents pour la problématique d’étude définie sur les contenus.
Ensuite, les trois mêmes méthodes serviront à la recherche d'une relation de dépendance de type OBJET et l'extraction des termes du fichier qui sont liés par cette relation (gouverneur et dépendant). Cette fois-ci, on traite uniquement les données UDpipe au format xml, et on leur applique les solutions proposées et commentées en cours en XSLT, XQUERY et Perl. Pour aller plus loin, il serait intéressant d'implémenter à chaque fois une version effectuant le même travail sur les données étiquetées avec TreeTagger.
Remarque : pour l'extraction de patrons par méthode XSLT, les données sont à chaque fois classées par ordre décroissant de leur nombre d’occurrences grâce aux commandes sort et uniq et leurs options. Pour l’extraction de relations de dépendances, ce tri est effectué par toutes les méthodes. |
L’application de ces trois méthodes d’extraction différentes permet de mettre en lumière les forces et limites de chacune, au regard des résultats obtenus. De plus, cette étape d’extraction prépare ensuite les données à une possible classification automatique : l’extraction de patrons et de relations de dépendances peut aider à cette tâche puisqu’à partir des termes extraits, on parvient souvent du premier coup d'oeil à reconnaître la rubrique dans laquelle on se trouve. Plus la rubrique traite un domaine spécifique, plus elle est reconnaissable par le lexique employé (sport, cinéma, culture). En revanche, la frontière est plus ténue entre les rubriques généralistes (à la une, société).
Résultats:

Patrons morpho-syntaxiques
XSLT
Treetagger
Patron | Fichier XSLT |
---|---|
ADJ-NOM | Cliquez ici pour voir le XSLT pour le patron ADJ-NOM |
DET-ADJ-NOM | Cliquez ici pour voir le XSLT pour le patron DET-ADJ-NOM |
DET-PNOM-PREP-PNOM | Cliquez ici pour voir le XSLT pour le patron DET-PNOM-PREP-PNOM |
NOM-ADJ | Cliquez ici pour voir le XSLT pour le patron NOM-ADJ |
NOM-PREP-NOM-PREP | Cliquez ici pour voir le XSLT pour le patron NOM-PREP-NOM-PREP |
VERB-DET-NOM | Cliquez ici pour voir le XSLT pour le patron VERBE-DET-NOM |
Lancement de l'extraction du patron NOM-ADJ sur la sortie TreeTagger de la rubrique "culture" via le terminal:

Ci-dessous, les fichiers de sortie:
UDPipe
Patron | Fichier XSLT |
---|---|
ADJ-NOM | Cliquez ici pour voir le XSLT pour le patron ADJ-NOM |
DET-ADJ-NOM | Cliquez ici pour voir le XSLT pour le patron DET-ADJ-NOM |
DET-PNOM-PREP-PNOM | Cliquez ici pour voir le XSLT pour le patron DET-PNOM-PREP-PNOM |
NOM-ADJ | Cliquez ici pour voir le XSLT pour le patron NOM-ADJ |
NOM-PREP-NOM-PREP | Cliquez ici pour voir le XSLT pour le patron NOM-PREP-NOM-PREP |
VERB-DET-NOM | Cliquez ici pour voir le XSLT pour le patron VERBE-DET-NOM |
Lancement de l'extraction du patron VERBE-DET-NOM sur la sortie UDPipe xml de la rubrique "cinéma" via le terminal:

Ci-dessous, les fichiers de sortie:
XQUERY
Treetagger
Pour XQuery, toutes les requêtes ont été réunies en un fichier. Cliquez sur l'icône ci-dessous pour afficher le fichier.

Lancement de la requête NOM-PREP-NOM-PREP sur la sortie TreeTagger de la rubrique "société" sur BaseX:

Ci-dessous, les fichiers de sortie:
UDPipe
Pour XQuery, toutes les requêtes ont été réunies en un fichier. Cliquez sur l'icône ci-dessous pour afficher le fichier.

Lancement de la requête ADJ-NOM sur la sortie UDPipe xml de la rubrique "à la une" sur BaseX:

Ci-dessous, les fichiers de sortie:
PERL
Cliquez sur l'icône pour afficher le script perl.

Lancement de la BAO 3 extraction de patrons sur la sortie UDPipe txt de la rubrique "cinéma" via le terminal:

UDPipe
Rubrique | Sortie de patrons |
---|---|
A la une | Cliquez ici pour voir la sortie |
Société | Cliquez ici pour voir la sortie |
Sport | Cliquez ici pour voir la sortie |
Culture | Cliquez ici pour voir la sortie |
Cinéma | Cliquez ici pour voir la sortie |
Relations de dépendances
XSLT
Cliquez sur l'icône pour afficher le xsl.

Lancement de l'extraction de la relation OBJ sur la sortie UDPipe xml de la rubrique "société" via le terminal:

Ci-dessous, les fichiers de sortie:
Rubrique | Sortie de relation |
---|---|
A la une | Cliquez ici pour voir la sortie |
Société | Cliquez ici pour voir la sortie |
Sport | Cliquez ici pour voir la sortie |
Culture | Cliquez ici pour voir la sortie |
Cinéma | Cliquez ici pour voir la sortie |
XQUERY
Lancement de la requête OBJ sur la sortie UDPipe xml de la rubrique "à la une" sur BaseX:

Démonstration du lancement du fichier:

Ci-dessous, les fichiers de sortie:
Rubrique | Sortie des requêtes |
---|---|
A la une | Cliquez ici pour voir la sortie |
Société | Cliquez ici pour voir la sortie |
Sport | Cliquez ici pour voir la sortie |
Culture | Cliquez ici pour voir la sortie |
Cinéma | Cliquez ici pour voir la sortie |
PERL
Cliquez sur l'icône pour afficher le script perl.

Lancement de la BAO 3 extraction de relation de type OBJ sur la sortie UDPipe xml de la rubrique "cinéma" via le terminal:

Ci-dessous, les fichiers de sortie:
Rubrique | Sortie des requêtes |
---|---|
A la une | Cliquez ici pour voir la sortie |
Société | Cliquez ici pour voir la sortie |
Sport | Cliquez ici pour voir la sortie |
Culture | Cliquez ici pour voir la sortie |
Cinéma | Cliquez ici pour voir la sortie |
Le plus important à cette étape est de tenir compte des spécificités de chaque étiquetage (tagset, structure du document xml produit…) pour adapter l’extraction et parvenir aux résultats attendus. Il faut également se familiariser avec la structure des requêtes en XQUERY et la sélection des données pertinentes en XSLT. A partir des extractions effectuées, on pourra songer à une classification automatique des contenus textuels dans les rubriques, grâce à l’observation des termes extraits.