BàO 3
EXTRACTION PATRONS
OBJECTIF
Extraire des patrons morphosyntaxiques et de dèpendance des fichiers étiquettés produits à l’issue de la BàO 2.
CORPUS
Le corpus à traiter sera celui qu’on a obtenu dans le traitement de la BàO 2. Les fichiers comportant l'étiquetage syntaxique et en dépendances des 4 rubriques: À la une, Europe, Sports et Planète. Les versions UDpipe et Treetagger seront utilisées tout au long de cette BàO 3.
SCRITPS ET RÉSULTATS
PERL
Le premier script correspond à une amélioration du script travaillé en cours. Nous avons notamment ajouté les fonctions pour prendre un fichier patrons.txt en argument ainsi que pour générer un fichier sortie en format txt.
À l’aide de ce fichier nous traiterons les rubriques étiquetées au format UDpipe. N’oublions pas que cet étiquetage prend en compte le répertoire d'étiquettes UD. Dans le tableau suivant vous trouverez dans la colonne à gauche les patrons extraits et ensuite les résultats obtenus en format txt.
PYTHON
Le script écrit en langage python permet de parcourir un fichier étiqueté via TreeTagger, en s'appuyant sur la bibliothèque LXT l’extraction de patrons est plutôt rapide et efficace.
XSLT
Dans cet appart on est censé construire des feuilles de style XSLT pour extraire des patrons morphosyntaxiques dans les étiquetages produits au format XML sur TreeTagger. Ci-dessous les documents XSLT construits à cet effet et les résultats.
Pour consulter les feuilles de style pour l'étiquettage UDpipe RDV sur notre site de Document Structuré. -- ICI ! --
Feuilles de Style
EXTRACTION RÉLATIONS DE DÉPENDANCES
Il est aussi pertinent de s’attarder sur les relations des dépendances qu'on trouve facilement dans le corpus étiqueté. Ici, nous utiliserons les données traitées avec le tagueur UDpipe. Deux méthodes ont été retenues pour cette analyse : un script Perl et de requêtes XQuery le résultat, dans le premier cas, est obtenu en format XML, dans le deuxième en TXT.
Methode 1 : Script PERL
Methode 2 : XQuery
RÉSULTATS
PATRONS EN GRAPHES
Nous pouvons passer les fichiers obtenus en paramètre de l’exécutable patron2graphe.exe . Les graphes qui en résultent nous permettront d’obtenir une représentation visuelle des résultats obtenus dans l’extraction de patrons
Le patron proposé est le mot “vaccin”. Il est évident que le covid 19 a fait couler beaucoup d'encre ces derniers mois. Il devient donc inéluctable de se pencher sur un mot qui suscite actuellement autant de polémique. Était-il déjà le cas dans l’année 2020 ? Voyons voir..
Le rendu de l’application sur Mac n'est pas 100% net mais ceci reste un très bon élément d’analyse.
On trouve plus de cooccurrents dans les rubriques “À la une” et "Planète", les termes évoquant la mise en œuvre de cette campagne de vaccination, la pénurie mais aussi le scepticisme sont les plus saillants. Par contre, aucune occurrence de ce mot n’était présent dans la rubrique “Sport” d’où l’absence de graphe.