BaO 3

Boîte à Outils 3


Analyse morpho-syntaxique et en dépendance

Objectif : recherche et extraction de termes sur les données étiquetées (selon différents patrons proposés), de relations de dépendances.

Nos données ont été extraites et enrichies, on peut maintenant procéder à une analyse linguistique des termes par extraction de plusieurs patrons syntaxiques (séquences de POS). On observera également les relations de dépendances qui peuvent lier ces termes entre eux.

Dans un premier temps, nous nous intéressons aux patrons syntaxiques. Les patrons syntaxiques, étudiés dans les 5 rubriques dont les données ont été préparées en BAO1 et BAO2, sont les suivants:

  • ADJECTIF - NOM COMMUN
  • NOM COMMUN - ADJECTIF
  • VERBE DETERMINANT - NOM COMMUN
  • NOM COMMUN - PREPOSITION - NOM COMMUN - PREPOSITION
  • DETERMINANT - ADJECTIF - NOM COMMUN
  • DETERMINANT - NOM PROPRE - PREPOSITION - NOM PROPRE
  • Il est intéressant ici de varier les combinaisons de POS mais aussi la longueur des séquences de POS, pour voir ce qui caractérise plus ou moins bien une rubrique par rapport à une autre.

    Pour la méthode XSLT, vous trouverez ci-dessous toutes les feuilles de style nécessaires à l’extraction, et pour la méthode XQUERY, un fichier au format txt regroupant toutes les requêtes à effectuer sur les différentes rubriques pour extraire les patrons choisis. Enfin, nous appliquons également à la sortie UDPipe au format txt une solution en perl proposée et commentée en cours BAO3_extraction_patrons.pl. Évidemment, on peut ensuite adapter ce travail pour rechercher autant de patrons différents, et pertinents pour la problématique d’étude définie sur les contenus.

    Ensuite, les trois mêmes méthodes serviront à la recherche d'une relation de dépendance de type OBJET et l'extraction des termes du fichier qui sont liés par cette relation (gouverneur et dépendant). Cette fois-ci, on traite uniquement les données UDpipe au format xml, et on leur applique les solutions proposées et commentées en cours en XSLT, XQUERY et Perl. Pour aller plus loin, il serait intéressant d'implémenter à chaque fois une version effectuant le même travail sur les données étiquetées avec TreeTagger.

    Remarque : pour l'extraction de patrons par méthode XSLT, les données sont à chaque fois classées par ordre décroissant de leur nombre d’occurrences grâce aux commandes sort et uniq et leurs options. Pour l’extraction de relations de dépendances, ce tri est effectué par toutes les méthodes.

    L’application de ces trois méthodes d’extraction différentes permet de mettre en lumière les forces et limites de chacune, au regard des résultats obtenus. De plus, cette étape d’extraction prépare ensuite les données à une possible classification automatique : l’extraction de patrons et de relations de dépendances peut aider à cette tâche puisqu’à partir des termes extraits, on parvient souvent du premier coup d'oeil à reconnaître la rubrique dans laquelle on se trouve. Plus la rubrique traite un domaine spécifique, plus elle est reconnaissable par le lexique employé (sport, cinéma, culture). En revanche, la frontière est plus ténue entre les rubriques généralistes (à la une, société).

    Résultats:

    schéma_sortie

    Patrons morpho-syntaxiques

    XSLT

    Treetagger

    Patron Fichier XSLT
    ADJ-NOM Cliquez ici pour voir le XSLT pour le patron ADJ-NOM
    DET-ADJ-NOM Cliquez ici pour voir le XSLT pour le patron DET-ADJ-NOM
    DET-PNOM-PREP-PNOM Cliquez ici pour voir le XSLT pour le patron DET-PNOM-PREP-PNOM
    NOM-ADJ Cliquez ici pour voir le XSLT pour le patron NOM-ADJ
    NOM-PREP-NOM-PREP Cliquez ici pour voir le XSLT pour le patron NOM-PREP-NOM-PREP
    VERB-DET-NOM Cliquez ici pour voir le XSLT pour le patron VERBE-DET-NOM

    Lancement de l'extraction du patron NOM-ADJ sur la sortie TreeTagger de la rubrique "culture" via le terminal:

    ex_sortie

    Ci-dessous, les fichiers de sortie:

    Rubrique Sortie ADJ-NOM Sortie DET-ADJ-NOM Sortie DET-PNOM-PREP-PNOM Sortie NOM-ADJ Sortie NOM-PREP-NOM-PREP Sortie VERB-DET-NOM
    A la une Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Société Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Sport Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Culture Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Cinéma Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM

    UDPipe

    Patron Fichier XSLT
    ADJ-NOM Cliquez ici pour voir le XSLT pour le patron ADJ-NOM
    DET-ADJ-NOM Cliquez ici pour voir le XSLT pour le patron DET-ADJ-NOM
    DET-PNOM-PREP-PNOM Cliquez ici pour voir le XSLT pour le patron DET-PNOM-PREP-PNOM
    NOM-ADJ Cliquez ici pour voir le XSLT pour le patron NOM-ADJ
    NOM-PREP-NOM-PREP Cliquez ici pour voir le XSLT pour le patron NOM-PREP-NOM-PREP
    VERB-DET-NOM Cliquez ici pour voir le XSLT pour le patron VERBE-DET-NOM

    Lancement de l'extraction du patron VERBE-DET-NOM sur la sortie UDPipe xml de la rubrique "cinéma" via le terminal:

    ex_sortie

    Ci-dessous, les fichiers de sortie:


    Rubrique Sortie ADJ-NOM Sortie DET-ADJ-NOM Sortie DET-PNOM-PREP-PNOM Sortie NOM-ADJ Sortie NOM-PREP-NOM-PREP Sortie VERB-DET-NOM
    A la une Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Société Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Sport Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Culture Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Cinéma Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM

    XQUERY

    Treetagger

    Pour XQuery, toutes les requêtes ont été réunies en un fichier. Cliquez sur l'icône ci-dessous pour afficher le fichier.

    schéma_sortie

    Lancement de la requête NOM-PREP-NOM-PREP sur la sortie TreeTagger de la rubrique "société" sur BaseX:

    ex_sortie

    Ci-dessous, les fichiers de sortie:

    Rubrique Sortie ADJ-NOM Sortie DET-ADJ-NOM Sortie DET-PNOM-PREP-PNOM Sortie NOM-ADJ Sortie NOM-PREP-NOM-PREP Sortie VERB-DET-NOM
    A la une Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Société Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Sport Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Culture Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Cinéma Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM

    UDPipe

    Pour XQuery, toutes les requêtes ont été réunies en un fichier. Cliquez sur l'icône ci-dessous pour afficher le fichier.

    schéma_sortie

    Lancement de la requête ADJ-NOM sur la sortie UDPipe xml de la rubrique "à la une" sur BaseX:

    ex_sortie

    Ci-dessous, les fichiers de sortie:

    Rubrique Sortie ADJ-NOM Sortie DET-ADJ-NOM Sortie DET-PNOM-PREP-PNOM Sortie NOM-ADJ Sortie NOM-PREP-NOM-PREP Sortie VERB-DET-NOM
    A la une Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Société Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Sport Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Culture Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM
    Cinéma Cliquez ici pour voir la sortie ADJ-NOM Cliquez ici pour voir la sortie avec DET-ADJ-NOM Cliquez ici pour voir la sortie avec DET-PNOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec NOM-ADJ Cliquez ici pour voir la sortie avec NOM-PREP-NOM-PREP Cliquez ici pour voir la sortie avec VERB-DET-NOM

    PERL

    Cliquez sur l'icône pour afficher le script perl.


    Lancement de la BAO 3 extraction de patrons sur la sortie UDPipe txt de la rubrique "cinéma" via le terminal:

    ex_sortie

    UDPipe

    Rubrique Sortie de patrons
    A la une Cliquez ici pour voir la sortie
    Société Cliquez ici pour voir la sortie
    Sport Cliquez ici pour voir la sortie
    Culture Cliquez ici pour voir la sortie
    Cinéma Cliquez ici pour voir la sortie

    Relations de dépendances

    XSLT

    Cliquez sur l'icône pour afficher le xsl.


    Lancement de l'extraction de la relation OBJ sur la sortie UDPipe xml de la rubrique "société" via le terminal:

    ex_sortie

    Ci-dessous, les fichiers de sortie:

    Rubrique Sortie de relation
    A la une Cliquez ici pour voir la sortie
    Société Cliquez ici pour voir la sortie
    Sport Cliquez ici pour voir la sortie
    Culture Cliquez ici pour voir la sortie
    Cinéma Cliquez ici pour voir la sortie

    XQUERY

    Lancement de la requête OBJ sur la sortie UDPipe xml de la rubrique "à la une" sur BaseX:


    Démonstration du lancement du fichier:

    ex_sortie

    Ci-dessous, les fichiers de sortie:

    Rubrique Sortie des requêtes
    A la une Cliquez ici pour voir la sortie
    Société Cliquez ici pour voir la sortie
    Sport Cliquez ici pour voir la sortie
    Culture Cliquez ici pour voir la sortie
    Cinéma Cliquez ici pour voir la sortie

    PERL

    Cliquez sur l'icône pour afficher le script perl.


    Lancement de la BAO 3 extraction de relation de type OBJ sur la sortie UDPipe xml de la rubrique "cinéma" via le terminal:

    ex_sortie

    Ci-dessous, les fichiers de sortie:

    Rubrique Sortie des requêtes
    A la une Cliquez ici pour voir la sortie
    Société Cliquez ici pour voir la sortie
    Sport Cliquez ici pour voir la sortie
    Culture Cliquez ici pour voir la sortie
    Cinéma Cliquez ici pour voir la sortie

    Le plus important à cette étape est de tenir compte des spécificités de chaque étiquetage (tagset, structure du document xml produit…) pour adapter l’extraction et parvenir aux résultats attendus. Il faut également se familiariser avec la structure des requêtes en XQUERY et la sélection des données pertinentes en XSLT. A partir des extractions effectuées, on pourra songer à une classification automatique des contenus textuels dans les rubriques, grâce à l’observation des termes extraits.