BàO 3

EXTRACTION PATRONS

OBJECTIF


Extraire des patrons morphosyntaxiques et de dèpendance des fichiers étiquettés produits à l’issue de la BàO 2.


CORPUS


Le corpus à traiter sera celui qu’on a obtenu dans le traitement de la BàO 2. Les fichiers comportant l'étiquetage syntaxique et en dépendances des 4 rubriques: À la une, Europe, Sports et Planète. Les versions UDpipe et Treetagger seront utilisées tout au long de cette BàO 3.

pos

SCRITPS ET RÉSULTATS


PERL

Le premier script correspond à une amélioration du script travaillé en cours. Nous avons notamment ajouté les fonctions pour prendre un fichier patrons.txt en argument ainsi que pour générer un fichier sortie en format txt.

À l’aide de ce fichier nous traiterons les rubriques étiquetées au format UDpipe. N’oublions pas que cet étiquetage prend en compte le répertoire d'étiquettes UD. Dans le tableau suivant vous trouverez dans la colonne à gauche les patrons extraits et ensuite les résultats obtenus en format txt.


PatronSortie
NOUN ADP NOUN ADP A la une Europe Sport Planète
VERB DET NOUN A la une Europe Sport Planète
NOUN ADJ A la une Europe Sport Planète
ADJ NOUN A la une Europe Sport Planète
VERB ADP NOUN A la une Europe Sport Planète
DET ADJ NOUN A la une Europe Sport Planète

PYTHON

Le script écrit en langage python permet de parcourir un fichier étiqueté via TreeTagger, en s'appuyant sur la bibliothèque LXT l’extraction de patrons est plutôt rapide et efficace.

PatronSortie
NOM PRP NOM PRP A la une Europe Sport Planète
VER DET NOM A la une Europe Sport Planète
NOM ADJ A la une Europe Sport Planète
ADJ NOM A la une Europe Sport Planète
VERB ADP NOUN A la une Europe Sport Planète
DET ADJ NOUN A la une Europe Sport Planète
TOUT A la une Europe Sport Planète

XSLT


Dans cet appart on est censé construire des feuilles de style XSLT pour extraire des patrons morphosyntaxiques dans les étiquetages produits au format XML sur TreeTagger. Ci-dessous les documents XSLT construits à cet effet et les résultats.

Pour consulter les feuilles de style pour l'étiquettage UDpipe RDV sur notre site de Document Structuré. -- ICI ! --


Feuilles de Style


PatronSortie
NOM PRP NOM PRP A la une Europe Cinéma Sport
VER DET NOM A la une Europe Cinéma Sport
NOM ADJ A la une Europe Cinéma Sport
ADJ NOM A la une Europe Cinéma Sport
VERB ADP NOUN A la une Europe Cinéma Sport
DET ADJ NOUN A la une Europe Cinéma Sport

EXTRACTION RÉLATIONS DE DÉPENDANCES

depandance

Il est aussi pertinent de s’attarder sur les relations des dépendances qu'on trouve facilement dans le corpus étiqueté. Ici, nous utiliserons les données traitées avec le tagueur UDpipe. Deux méthodes ont été retenues pour cette analyse : un script Perl et de requêtes XQuery le résultat, dans le premier cas, est obtenu en format XML, dans le deuxième en TXT.

Methode 1 : Script PERL

Methode 2 : XQuery


RÉSULTATS



PATRONS EN GRAPHES

Nous pouvons passer les fichiers obtenus en paramètre de l’exécutable patron2graphe.exe . Les graphes qui en résultent nous permettront d’obtenir une représentation visuelle des résultats obtenus dans l’extraction de patrons

Le patron proposé est le mot “vaccin”. Il est évident que le covid 19 a fait couler beaucoup d'encre ces derniers mois. Il devient donc inéluctable de se pencher sur un mot qui suscite actuellement autant de polémique. Était-il déjà le cas dans l’année 2020 ? Voyons voir..

Le rendu de l’application sur Mac n'est pas 100% net mais ceci reste un très bon élément d’analyse.

On trouve plus de cooccurrents dans les rubriques “À la une” et "Planète", les termes évoquant la mise en œuvre de cette campagne de vaccination, la pénurie mais aussi le scepticisme sont les plus saillants. Par contre, aucune occurrence de ce mot n’était présent dans la rubrique “Sport” d’où l’absence de graphe.

Graphe "À la Une"

pos

Graphe "Europe"

pos

Graphe "Planète"

pos